Descubra dados

Databricks fornece um conjunto de ferramentas e produtos que simplificam a descoberta de dados ativos que são acessíveis através da Databricks Data Intelligence Platform. Este artigo fornece uma visão geral opinativa de como você pode descobrir e visualizar dados que já foram configurados para acesso em seu workspace.

Os tópicos desta seção concentram-se na exploração de objetos e arquivos de dados. Se você está procurando informações sobre como trabalhar com ativos como Notebook, query SQL, biblioteca e modelos, consulte Navegar no espaço de trabalho.

Se você estiver procurando orientação sobre a geração de estatísticas resumidas para dataset ou outra tarefa associada à análise exploratória de dados (EDA), consulte Análise exploratória de dados em Databricks: Ferramentas e técnicas.

Como você pode descobrir dados ativos?

As ferramentas de descoberta de dados no Databricks se enquadram nas seguintes categorias gerais:

  • Entendimento, resumo e pesquisa assistidos por IA.

  • Pesquisa por palavra-chave.

  • Exploração de catálogo usando a UI.

  • Listagem programática e exploração de metadados.

As ferramentas de descoberta de dados são otimizadas para dados governados pelo Unity Catalog. Os dados ativos que não foram registrados como objetos Unity Catalog podem não ser detectáveis usando algumas dessas abordagens.

Encontre o uso de dados na IU

O Catalog Explorer fornece ferramentas para explorar e controlar dados ativos. Você acessa o Catalog Explorer usando o Ícone de catálogo Catálogo na barra lateral workspace . Consulte O que é o Catalog Explorer?.

Notebook e o editor query SQL também fornecem um navegador de catálogo para explorar objetos de banco de dados. Clique no ícone Catálogo nessas interfaces para expandir ou recolher o navegador do catálogo sem sair do editor de código.

Depois de descobrir um dataset de interesse, você pode usar a entendimento tab para saber como os dados estão sendo usados em seu espaço de trabalho. Veja view query frequentes e usuários de uma tabela.

Explore dados programaticamente

Você pode usar o comando SHOW em todos os objetos do banco de dados para descobrir o ativo registrado no Unity Catalog. Use o comando LIST , o comando mágico %fs ou o Databricks russas para listar os arquivos.

Consulte Explorar armazenamento e localizar arquivos de dados e Explorar objetos de banco de dados.

Revise os comentários dos dados

Você pode revisar os comentários para saber mais sobre o conteúdo do dataset disponível em sua lakehouse. Os comentários podem ser definidos em objetos de dados, incluindo catálogos, esquemas, tabelas e colunas. Você pode view comentários no Catalog Explorer ou usar o comando DESCRIBE para um objeto.

O Catalog Explorer pode fornecer comentários gerados por IA para tabelas, o que torna mais fácil para os proprietários de dados ativos fornecerem uma visão geral rica do dataset. Consulte Adicionar comentários gerados por IA a uma tabela.

Opcionalmente, os usuários também podem fornecer comentários em tabelas e outros objetos de banco de dados usando markdown, que é renderizado no Catalog Explorer. Consulte Dados do documento no Catalog Explorer usando comentários de redução.

Procure mesas em sua casa do lago

Você pode usar a barra de pesquisa no Databricks para encontrar tabelas registradas no Unity Catalog. Você pode realizar uma pesquisa por palavra-chave ou usar a pesquisa semântica para localizar dataset ou colunas relacionadas à sua query de pesquisa. A pesquisa retorna apenas resultados de tabelas que você tem permissão para ver. Pesquisar revisa nomes de tabelas, nomes de colunas, comentários de tabelas e comentários de colunas. Consulte Procurar objetos workspace .