Recomendações para arquivos em volumes e arquivos de espaço de trabalho

Ao acessar upload ou salvar dados ou arquivos em Databricks, o senhor pode optar por armazenar esses arquivos usando volumes Unity Catalog ou arquivos workspace. Este artigo contém recomendações e requisitos para o uso desses locais. Para obter mais detalhes sobre volumes e arquivos workspace, consulte Criar e trabalhar com volumes e O que são arquivos workspace?

Databricks recomenda o uso de volumes Unity Catalog para armazenar dados, biblioteca e construir artefatos. Armazene o Notebook, as consultas SQL e os arquivos de código como arquivos workspace. O senhor pode configurar os diretórios de arquivos workspace como pastas Git para sincronizar com os repositórios remotos Git. Consulte a integração do Git com as pastas Git do Databricks. Pequenos arquivos de dados usados para cenários de teste também podem ser armazenados como arquivos workspace.

As tabelas abaixo fornecem recomendações específicas para arquivos, dependendo do tipo de arquivo ou das necessidades do recurso.

Importante

O sistema de arquivos Databricks (DBFS) também está disponível para armazenamento de arquivos, mas não é recomendado, pois todos os usuários do workspace têm acesso aos arquivos em DBFS. Consulte DBFS.

Tipos de arquivos

A tabela a seguir fornece recomendações de armazenamento para tipos de arquivos. O Databricks suporta muitos formatos de arquivo além dos que são fornecidos nesta tabela como exemplos.

Tipo de Arquivo

Recomendação

Databricks objetos, como o Notebook e as consultas

Armazenar como arquivos workspace

Arquivos de dados estruturados, como arquivos Parquet e arquivos ORC

Armazenamento em volumes do Unity Catalog

Arquivos de dados semiestruturados, como arquivos de texto (.csv, .txt) e arquivos JSON (.json)

Armazenamento em volumes do Unity Catalog

Arquivos de dados não estruturados, como arquivos de imagem (.png, .svg), arquivos de áudio (.mp3) e arquivos de documentos (.pdf, .docx)

Armazenamento em volumes do Unity Catalog

Arquivos de dados brutos usados para exploração adhoc ou inicial de dados

Armazenamento em volumes do Unity Catalog

Dados operacionais, como arquivos log

Armazenamento em volumes do Unity Catalog

Arquivos compactados grandes, como arquivos ZIP (.zip)

Armazenamento em volumes do Unity Catalog

Arquivos de código-fonte, como arquivos Python (.py), arquivos Java (.java) e arquivos Scala (.scala)

Armazene como arquivos workspace, se aplicável, com outros objetos relacionados, como Notebook e consultas.

Databricks recomenda gerenciar esses arquivos em uma pastaGit para controle de versão e acompanhamento de alterações desses arquivos.

Crie artefatos e biblioteca, como rodas Python (.whl) e arquivos JAR (.jar)

Armazenamento em volumes do Unity Catalog

Arquivos de configuração

Armazene os arquivos de configuração necessários em todo o espaço de trabalho em volumes Unity Catalog, mas armazene-os como arquivos workspace se forem arquivos de projeto em uma pastaGit .

comparação de recursos

A tabela a seguir compara as ofertas de workspace recurso dos arquivos e dos Unity Catalog volumes.

Recurso

workspace arquivos

Unity Catalog volumes

Acesso a arquivos

workspace Os arquivos só podem ser acessados entre si dentro do mesmo workspace.

Os arquivos podem ser acessados globalmente em todo o espaço de trabalho.

Acesso programático

Os arquivos podem ser acessados usando:

Os arquivos podem ser acessados usando:

Databricks Pacotes ativos

Em default, todos os arquivos em um pacote, que inclui biblioteca e objetos Databricks como Notebook e consultas, são implantados com segurança como arquivos workspace. As permissões são definidas na configuração do pacote.

Os pacotes podem ser personalizados para incluir a biblioteca já em volumes quando a biblioteca exceder o limite de tamanho dos arquivos workspace. Consulte Databricks ativo Bundles biblioteca dependencies.

Nível de permissão do arquivo

As permissões estão no nível da pasta Git se o arquivo estiver em uma pasta Git; caso contrário, as permissões são definidas no nível do arquivo.

As permissões estão no nível do volume.

Gerenciamento de permissões

As permissões são gerenciadas pelas workspace ACLs do site e são limitadas ao site que as workspace contém.

Os metadados e as permissões são gerenciados por Unity Catalog. Essas permissões são aplicáveis a todos os espaços de trabalho que têm acesso ao catálogo.

Suporte para armazenamento externo

Não suporta a montagem de armazenamento externo

Oferece a opção de apontar para um conjunto de dados pré-existente no armazenamento externo, criando um volume externo. Consulte Criar um volume externo.

Suporte a UDF

Não suportado

A gravação de UDFs é compatível com o uso do Volumes FUSE

Tamanho do Arquivo

Armazene arquivos menores, com menos de 500 MB, como arquivos de código-fonte (.py, .md, .yml) necessários para o Notebook.

Armazene arquivos de dados muito grandes nos limites determinados pelos provedores de serviços cloud.

upload & download

Suporte para upload e download de até 10 MB.

Suporte para upload e download de até 5 GB.

Suporte à criação de tabelas

As tabelas não podem ser criadas com arquivos workspace como local.

As tabelas podem ser criadas a partir de arquivos em um volume executando COPY INTO, Autoloader ou outras opções descritas em Ingerir dados em um lakehouse do Databricks.

Estrutura de diretórios & caminhos de arquivos

Os arquivos são organizados em diretórios aninhados, cada um com seu próprio modelo de permissão:

  • Diretórios home de usuários, um para cada usuário e entidade de serviço no diretório workspace

  • Pastas Git

  • Compartilhado

Os arquivos são organizados em diretórios aninhados dentro de um volume

Consulte Como o senhor pode acessar dados no Unity Catalog?

Arquivo histórico

Use a pastaGit no espaço de trabalho para rastrear as alterações nos arquivos.

Auditoria logs está disponível.