Tipos de visualização

Este artigo descreve os tipos de visualizações disponíveis para uso no Databricks Notebook e no Databricks SQL e mostra como criar um exemplo de cada tipo de visualização.

Observação

Para saber mais sobre os tipos de visualização disponíveis para os painéis do AI/BI, consulte Tipos de visualizações de painéis.

Gráfico de barras

Os gráficos de barras representam a mudança nas métricas ao longo do tempo ou mostram a proporcionalidade, semelhante a um gráfico de pizza .

Observação

Os gráficos de barras oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Valores de configuração: Para esta visualização do gráfico de barras, foram definidos os seguintes valores:

Coluna X:
- coluna dataset : o_orderdate
- Nível de data: Months
Colunas Y:
- coluna dataset : o_totalprice
- Tipo de agregação: Sum
Agrupar por (coluna dataset ): o_orderpriority
Empilhamento: Stack
Nome do eixo X (substituir valor default ): Order month
Nome do eixo Y (substituir valor default ): Total price

Opções de configuração: Para opções de configuração do gráfico de barras, consulte as opções de configuração do gráfico.

querySQL: Para esta visualização de gráfico de barras, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de linha

Os gráficos de linhas apresentam a mudança em uma ou mais métricas ao longo do tempo.

Observação

Os gráficos de linhas oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Valores de configuração: Para esta visualização do gráfico de linhas, foram definidos os seguintes valores:

Coluna X:
- coluna dataset : o_orderdate
- Nível de data: Years
Colunas Y:
- coluna dataset : o_totalprice
- Tipo de agregação: Average
Agrupar por (coluna dataset ): o_orderpriority
Nome do eixo X (substituir valor default ): Order year
Nome do eixo Y (substituir valor default ): Average price

Opções de configuração: Para opções de configuração do gráfico de linha, consulte as opções de configuração do gráfico.

querySQL: para esta visualização do gráfico de linhas, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de área

Os gráficos de área combinam o gráfico de linhas e de barras para mostrar como os valores numéricos de um ou mais grupos mudam ao longo da progressão de uma segunda variável, normalmente o tempo. Eles são frequentemente usados para mostrar as mudanças funnel vendas ao longo do tempo.

Observação

Os gráficos de área oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Valores de configuração: Para esta visualização do gráfico de áreas, foram definidos os seguintes valores:

Coluna X:
- coluna dataset : o_orderdate
- Nível de data: Years
Colunas Y:
- coluna dataset : o_totalprice
- Tipo de agregação: Sum
Agrupar por (coluna dataset ): o_orderpriority
Empilhamento: Stack
Nome do eixo X (substituir valor default ): Order year
Nome do eixo Y (substituir valor default ): Total price

Opções de configuração: Para opções de configuração do gráfico de área, consulte as opções de configuração do gráfico.

querySQL: Para esta visualização do gráfico de área, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de setores

gráficos pie mostram proporcionalidade entre métricas. Eles não se destinam a transmitir dados de séries temporais.

Observação

gráficos pie oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Valores de configuração: Para esta visualização de gráfico pie , os seguintes valores foram definidos:

Coluna X (coluna dataset ): o_orderpriority
Colunas Y:
- coluna dataset : o_totalprice
- Tipo de agregação: Sum
rótulo (substituir valor default ): Total price

Opções de configuração: Para conhecer as opções de configuração do gráfico pie, consulte opções de configuração do gráfico.

querySQL: para esta visualização de gráfico pie , a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráficos de histograma

Um histograma representa a frequência com que um determinado valor ocorre em um dataset. Um histograma ajuda você a entender se um dataset possui valores agrupados em um pequeno número de intervalos ou mais dispersos. Um histograma é exibido como um gráfico de barras no qual você controla o número de barras distintas (também chamadas de compartimentos).

Observação

Os gráficos de histograma suportam agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Valores de configuração: Para esta visualização do gráfico histograma, foram definidos os seguintes valores:

Coluna X (coluna dataset ): o_totalprice
Número de caixas: 20
Nome do eixo X (substituir valor default ): Total price

Opções de configuração: Para opções de configuração do gráfico de histograma, consulte as opções de configuração do gráfico de histograma.

querySQL: Para esta visualização do gráfico de histograma, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de mapa de calor

Os gráficos de mapa de calor combinam recursos de gráficos de barras, empilhamento e gráficos de bolhas, permitindo visualizar o uso numérico de cores de dados. Uma paleta de cores comum para um mapa de calor mostra os valores mais altos usando cores mais quentes, como laranja ou vermelho, e os valores mais baixos usando cores mais frias, como azul ou roxo.

Por exemplo, considere o seguinte mapa de calor que visualiza as distâncias de corridas de táxi que ocorrem com mais frequência em cada dia e agrupa os resultados por dia da semana, distância e tarifa total.

Observação

Os gráficos de mapa de calor oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Valores de configuração: Para esta visualização do gráfico de mapa de calor, os seguintes valores foram definidos:

Coluna X (coluna dataset ): o_orderpriority
Colunas Y (coluna dataset ): o_orderstatus
Coluna de cores:
- coluna dataset : o_totalprice
- Tipo de agregação: Average
Nome do eixo X (substituir valor default ): Order priority
Nome do eixo Y (substituir valor default ): Order status
Nome da cor (substitui o valor de default ): Average price
Esquema de cores (substituir valor default ): YIGnBu

Opções de configuração: Para opções de configuração de mapa de calor, consulte opções de configuração do gráfico de mapa de calor.

querySQL: para esta visualização do gráfico de mapa de calor, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders

Gráfico de dispersão

As visualizações de dispersão são comumente usadas para mostrar a relação entre duas variáveis numéricas. Além disso, uma terceira dimensão pode ser codificada com cores para mostrar como as variáveis numéricas são diferentes entre os grupos.

Observação

Os gráficos de dispersão oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Valores de configuração: Para esta visualização do gráfico de dispersão, foram definidos os seguintes valores:

Coluna X (coluna dataset ): l_quantity
Coluna Y (coluna dataset ): l_extendedprice
Agrupar por (coluna dataset ): l_returnflag
Nome do eixo X (substituir valor default ): Quantity
Nome do eixo Y (substituir valor default ): Extended price

Opções de configuração: Para opções de configuração do gráfico de dispersão, consulte as opções de configuração do gráfico.

querySQL: Para esta visualização do gráfico de dispersão, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Gráfico de bolhas

Os gráficos de bolhas são gráficos de dispersão onde o tamanho de cada marcador de ponto reflete uma estatística relevante.

Observação

Os gráficos de bolhas oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Valores de configuração: Para esta visualização do gráfico de bolhas, foram definidos os seguintes valores:

X (coluna dataset ): l_quantity
Colunas Y (coluna dataset ): l_extendedprice
Agrupar por (coluna dataset ): l_returnflag
Coluna de tamanho de bolha (coluna dataset ): l_tax
Coeficiente de tamanho da bolha: 20
Tamanho da bolha proporcional a: Area
Nome do eixo X (substituir valor default ): Quantity
Nome do eixo Y (substituir valor default ): Extended price

Opções de configuração: Para opções de configuração do gráfico de bolhas, consulte as opções de configuração do gráfico.

querySQL: para esta visualização do gráfico de bolhas, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem where l_quantity < 45

Gráfico de caixa

A visualização do gráfico de caixa mostra o resumo da distribuição dos dados numéricos, opcionalmente agrupados por categoria. Usando uma visualização de gráfico de caixa, você pode comparar rapidamente os intervalos de valores entre categorias e visualizar os grupos de localidade, dispersão e assimetria dos valores por meio de seus quartis. Em cada caixa, a linha mais escura mostra o intervalo interquartil. Para obter mais informações sobre a interpretação de visualizações de gráficos de caixa, consulte os artigos do gráfico de caixa na Wikipedia.

Observação

Os gráficos de caixa suportam agregação apenas de até 64.000 linhas. Se um dataset tiver mais de 64.000 linhas, os dados serão truncados.

Valores de configuração: Para esta visualização do box chart, foram definidos os seguintes valores:

Coluna X (coluna dataset ): l_returnflag
Colunas Y (coluna dataset ): l_extendedprice
Agrupar por (coluna dataset ): l_shipmode
Nome do eixo X (substituir valor default ): Return flag
Nome do eixo Y (substituir valor default ): Extended price

Opções de configuração: Para opções de configuração de gráfico de caixa, consulte opções de configuração de gráfico de caixa.

querySQL: para esta visualização do gráfico de caixa, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Gráfico combinado

Os gráficos combinados combinam gráficos de linhas e barras para apresentar as mudanças ao longo do tempo com proporcionalidade.

Observação

Os gráficos combinados oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados.

Valores de configuração: Para esta visualização do gráfico combinado, foram definidos os seguintes valores:

Coluna X:
- coluna dataset : l_shipdate
- Nível de data: Months
Colunas Y:
- Primeira coluna dataset : l_extendedprice
- Tipo de agregação: média
- Segunda coluna dataset : l_quantity
- Tipo de agregação: média
Nome do eixo X (substituir valor default ): Ship date
Nome do eixo Y esquerdo (substituir valor default ): Quantity
Nome do eixo Y direito (substituir valor default ): Average price
Series:
- Order1 (coluna dataset ): AVG(l_extendedprice)
- Eixo Y: direito
- Tipo: Linha
- Order2 (coluna dataset ): AVG(l_quantity)
- Eixo Y: esquerda
- Tipo: Barra

Opções de configuração: Para opções de configuração do gráfico combinado, consulte as opções de configuração do gráfico.

querySQL: para esta visualização de gráfico combinado, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Análise de coorte

Uma análise de coorte examina os resultados de grupos predeterminados, chamados coortes, à medida que progridem através de um conjunto de etapas. A visualização de coorte agrega apenas por datas (permite agregações mensais). Ele não faz nenhuma outra agregação de dados no conjunto de resultados. Todas as outras agregações são feitas na própria query .

Valores de configuração: para esta visualização de coorte, os seguintes valores foram definidos:

Data (intervalo) (coluna do banco de dados): cohort_month
Estágio (coluna do banco de dados): months
Tamanho da população do intervalo (coluna do banco de dados): size
Valor do estágio (coluna do banco de dados): active
Intervalo de tempo: monthly

Opções de configuração: para opções de configuração de coorte, consulte opções de configuração do gráfico de coorte.

querySQL: para esta visualização de coorte, a seguinte query SQL foi usada para gerar o conjunto de dados.

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

Exibição do contador

Os contadores exibem um único valor de forma proeminente, com uma opção para compará-los com um valor de destino. Para usar contadores, especifique qual linha de dados exibir na visualização do contador para a coluna de valor e a coluna de destino.

Observação

O contador suporta apenas agregação de até 64.000 linhas. Se um dataset for maior que 64.000 linhas, os dados serão truncados.

Valores de configuração: Para esta visualização do contador foram definidos os seguintes valores:

Coluna Valor
- coluna dataset : avg(o_totalprice)
- Linha: 1
Coluna-alvo:
- coluna dataset : avg(o_totalprice)
- Linha: 2
Valor alvo de formato: Habilitar

querySQL: Para esta visualização do contador, a seguinte query SQL foi usada para gerar o conjunto de dados.

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

Visualização de funil

A visualização funnel ajuda a analisar a mudança em métricas em diferentes estágios. Para usar o funnel, especifique uma coluna step e uma coluna value.

Observação

funnel oferece suporte apenas à agregação de até 64.000 linhas. Se um dataset for maior que 64.000 linhas, os dados serão truncados.

Valores de configuração: Para esta visualização funnel , foram definidos os seguintes valores:

o coluna passo (coluna dataset ): o_orderstatus
Coluna de valor (coluna dataset ): Revenue

querySQL: para esta visualização funnel , a seguinte query SQL foi usada para gerar o conjunto de dados.

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

Visualização do mapa (coroplético)

Nas visualizações coropléticas, as localidades geográficas, como países ou estados, são coloridas de acordo com os valores agregados de cada coluna key . A query deve retornar localizações geográficas por nome.

Observação

As visualizações Choropleth não fazem nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute na própria query .

Valores de configuração: Para esta visualização coroplética, foram definidos os seguintes valores:

Mapa (coluna dataset ): Countries
Coluna geográfica (coluna dataset ): Country
Tipo geográfico: nome curto
Coluna de valor (coluna dataset ): Revenue
modo clusters : equidistante

Opções de configuração: Para opções de configuração coroplética, consulte opções de configuração coroplética.

querySQL: Para esta visualização coroplética, a seguinte query SQL foi usada para gerar o conjunto de dados.

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

Visualização do mapa de marcadores

Nas visualizações de marcadores, um marcador é colocado em um conjunto de coordenadas no mapa. O resultado query deve retornar pares de latitude e longitude.

Observação

O marcador não faz nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute dentro da própria query .

Este exemplo de marcador é gerado a partir de um dataset que inclui valores de latitude e longitude, que não estão disponíveis no dataset de exemplo do Databricks. Para opções de configuração coroplética, consulte opções de configuração de marcador.

Visualização de tabela dinâmica

Uma visualização de tabela dinâmica agrega registros de um resultado query em uma nova exibição tabular. É semelhante às instruções PIVOT ou GROUP BY em SQL. Você configura a visualização da tabela dinâmica com campos de arrastar e soltar.

Observação

As tabelas dinâmicas oferecem suporte a agregações de back-end, fornecendo suporte para query que retornam mais de 64 mil linhas de dados sem truncamento do conjunto de resultados. No entanto, a tabela dinâmica (herdada) oferece suporte apenas à agregação de até 64.000 linhas. Se um dataset tiver mais de 64.000 linhas, os dados serão truncados.

Valores de configuração: Para esta visualização da tabela dinâmica, os seguintes valores foram definidos:

Selecione linhas (coluna dataset ): l_returnflag
Selecione colunas (coluna dataset ): l_shipmode
Célula
- coluna dataset : l_quantity
- Tipo de agregação: Soma
- Células de cor por valor: Ativado

querySQL: para esta visualização da tabela dinâmica, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.lineitem

Sankey

Um diagrama sankey visualiza o fluxo de um conjunto de valores para outro.

Observação

As visualizações Sankey não fazem nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute dentro da própria query .

querySQL: para esta visualização Sankey, a seguinte query SQL foi usada para gerar o conjunto de dados.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

sequência de explosão solar

Um diagrama sunburst ajuda a visualizar círculos concêntricos hierárquicos de uso de dados.

Observação

A sequência Sunburst não faz nenhuma agregação de dados no conjunto de resultados. Todas as agregações devem ser compute dentro da própria query .

querySQL: para esta visualização sunburst, a seguinte query SQL foi usada para gerar o conjunto de dados.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

Mesa

A visualização de tabela exibe dados em uma tabela padrão, mas com a capacidade de reordenar, ocultar e formatar manualmente os dados. Consulte Opções de tabela.

Observação

As visualizações de tabela não agregam dados no conjunto de resultados. Todas as agregações devem ser compute na própria query .

Para opções de configuração de tabela, consulte opções de configuração de tabela.

Palavra nuvem

Uma cloud de palavras representa visualmente a frequência com que uma palavra ocorre nos dados.

Observação

cloud do Word oferece suporte apenas à agregação de até 64.000 linhas. Se um dataset for maior que 64.000 linhas, os dados serão truncados.

Valores de configuração: Para esta visualização clouds de palavras, foram definidos os seguintes valores: teste

Coluna Palavras (coluna dataset ): o_comment
Limite de comprimento de palavras: Min = 5
Limite de frequências: Min = 2

querySQL: Para esta visualização clouds de palavras, a seguinte query SQL foi usada para gerar o conjunto de dados.

select * from samples.tpch.orders