Explore o armazenamento e encontre arquivos de dados

Este artigo se concentra na descoberta e exploração de diretórios e arquivos de dados gerenciados com volumes do Unity Catalog, incluindo instruções baseadas em UI para explorar volumes com o Catalog Explorer. Este artigo também fornece exemplos para exploração programática de dados em armazenamento de objetos clouds usando caminhos de volume e URIs clouds .

Databricks recomenda o uso de volumes para gerenciar o acesso aos dados no armazenamento de objetos clouds . Para obter mais informações sobre como conectar-se a dados no armazenamento de objetos clouds , consulte Conectar-se à fonte de dados.

Para obter um passo a passo completo sobre como interagir com arquivos em todos os locais, consulte Trabalhar com arquivos no Databricks.

Importante

Ao pesquisar arquivos na interface do usuário workspace , você poderá descobrir arquivos de dados armazenados como arquivos workspace . A Databricks recomenda a utilização de ficheiros workspace principalmente para código (como scripts e biblioteca), init script ou ficheiros de configuração. Idealmente, você deve limitar os dados armazenados como arquivos workspace a pequenos dataset que possam ser usados para tarefas como testes durante o desenvolvimento e controle de qualidade. Consulte O que são arquivos de espaço de trabalho?.

Configurações de objetos de volumes versus clouds legadas

Ao usar volumes para gerenciar o acesso aos dados no armazenamento de objetos clouds , você só poderá usar o caminho dos volumes para acessar os dados, e esses caminhos estão disponíveis com todos os compute habilitados para o Unity Catalog. Você não pode registrar arquivos de dados que apoiam tabelas do Catálogo do Unity usando volumes. A Databricks recomenda a utilização de nomes de tabelas em vez de caminhos de ficheiros para interagir com dados estruturados registados como tabelas Unity Catalog . Consulte Como funcionam os caminhos para gerenciamento de dados pelo Unity Catalog?.

Se você usar um método legado para configurar o acesso aos dados no armazenamento de objetos clouds , o Databricks reverterá para permissões de ACLs de tabela herdadas. Os usuários que desejam acessar URIs clouds de uso de dados do SQL warehouse ou compute configurada com modo de acesso compartilhado precisam da permissão ANY FILE. Consulte Controle de acessoHive metastore da tabela (legado).

Databricks fornece várias APIs para listar arquivos no armazenamento de objetos clouds . A maioria dos exemplos neste artigo concentra-se no uso de volumes. Para obter exemplos sobre como interagir com dados no armazenamento de objetos configurado sem volumes, consulte Listar arquivos com URIs.

Explorar volumes

É possível usar o Catalog Explorer para explorar dados em volumes e revisar os detalhes de um volume. Você só pode ver os volumes para os quais tem permissão de leitura, portanto, pode query todos os dados descobertos dessa forma.

Você pode usar SQL para explorar volumes e seus metadados. Para listar arquivos em volumes, você pode usar SQL, o comando mágico %fs ou Databricks russas. Ao interagir com dados em volumes, você utiliza o caminho fornecido pelo Unity Catalog, que sempre tem o seguinte formato:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Exibir volumes

execute o seguinte comando para ver uma lista de volumes em um determinado esquema.

SHOW VOLUMES IN catalog_name.schema_name;

Consulte SHOW VOLUMES.

Para exibir volumes em um determinado esquema com o Catalog Explorer, faça o seguinte:

  1. Selecione os Ícone de catálogo Ícone de catálogo .

  2. Selecione um catálogo.

  3. Selecione um esquema.

  4. Clique em Volumes para expandir todos os volumes no esquema.

Observação

Se nenhum volume estiver registrado em um esquema, a opção Volumes não será exibida. Em vez disso, você verá uma lista de tabelas disponíveis.

Veja detalhes do volume

execute o seguinte comando para descrever um volume.

DESCRIBE VOLUME volume_name

Consulte DESCRIBE VOLUME.

Clique no nome do volume e tab selecione a Detalhes para revisar os detalhes do volume.

Veja arquivos em volumes

execute o seguinte comando para listar os arquivos em um volume.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Clique no nome do volume e tab selecione a Detalhes para revisar os detalhes do volume.

execute o seguinte comando para listar os arquivos em um volume.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

execute o seguinte comando para listar os arquivos em um volume.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

Listar arquivos com URIs

Você pode query o armazenamento de objetos clouds configurado com métodos diferentes de volumes usando URIs. Você deve estar conectado à compute com privilégios para acessar a localização clouds . A permissão ANY FILE é necessária no SQL warehouse e compute configurada com modo de acesso compartilhado.

Observação

O acesso URI ao armazenamento de objetos configurado com volumes não é suportado. Não é possível usar o Catalog Explorer para revisar o conteúdo do armazenamento de objetos não configurado com volumes.

Os exemplos a seguir incluem URIs de exemplo para dados armazenados com Azure Data Lake Storage Gen2, S3 e GCS.

execute o seguinte comando para listar arquivos no armazenamento de objetos clouds .

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

execute o seguinte comando para listar arquivos no armazenamento de objetos clouds .

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

execute o seguinte comando para listar arquivos no armazenamento de objetos clouds .


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")