Análise exploratória de dados no Databricks: ferramentas e técnicas

Este artigo descreve ferramentas e técnicas para análise exploratória de dados (EDA) em Databricks.

O que é EDA e por que é útil?

A análise exploratória de dados (EDA) inclui métodos para explorar conjuntos de dados para resumir suas principais características e identificar quaisquer problemas com os dados. Usando visualizações e métodos estatísticos, você pode aprender sobre um conjunto de dados para determinar sua prontidão para análise e informar quais técnicas aplicar para preparação de dados. A EDA também pode influenciar quais algoritmos você escolhe aplicar para os modelos de treinamento ML.

Quais são as ferramentas EDA no Databricks?

O Databricks possui ferramentas integradas de análise e visualização no Databricks SQL e no Databricks Runtime. Para obter uma lista ilustrada dos tipos de visualizações disponíveis no Databricks, consulte Tipos de visualização.

EDA em Databricks SQL

Aqui estão alguns artigos úteis sobre visualização de dados e ferramentas de exploração no Databricks SQL:

EDA em Databricks Runtime

O Databricks Runtime fornece um ambiente pré-criado que possui bibliotecas populares de exploração de dados já instaladas. Você pode ver a lista das bibliotecas integradas nas notas sobre a versão.

Além disso, os artigos a seguir mostram exemplos de ferramentas de visualização no Databricks Runtime:

Em um Databricks Python Notebook, você pode combinar SQL e Python para explorar dados. Quando você executa o código em uma célula da linguagem SQL em um Python Notebook, os resultados da tabela são automaticamente disponibilizados como um Python DataFrame. Para obter detalhes, consulte Explorar os resultados da célula SQL no Python Notebook.