Recomendações para arquivos em volumes e arquivos de espaço de trabalho
Ao acessar upload ou salvar dados ou arquivos em Databricks, o senhor pode optar por armazenar esses arquivos usando volumes Unity Catalog ou arquivos workspace. Este artigo contém recomendações e requisitos para o uso desses locais. Para obter mais detalhes sobre volumes e arquivos workspace, consulte O que são volumes Unity Catalog? e O que são arquivos workspace?
Databricks recomenda o uso de volumes Unity Catalog para armazenar dados, biblioteca e construir artefatos. Armazene o Notebook, as consultas SQL e os arquivos de código como arquivos workspace. O senhor pode configurar os diretórios de arquivos workspace como pastas Git para sincronizar com os repositórios remotos Git. Consulte Integração do Git para pastas Git do Databricks. Pequenos arquivos de dados usados para cenários de teste também podem ser armazenados como arquivos workspace.
As tabelas abaixo fornecem recomendações específicas para arquivos, dependendo do tipo de arquivo ou das necessidades do recurso.
Importante
O sistema de arquivos Databricks (DBFS) também está disponível para armazenamento de arquivos, mas não é recomendado, pois todos os usuários do workspace têm acesso aos arquivos em DBFS. Consulte DBFS.
Tipos de arquivos
A tabela a seguir fornece recomendações de armazenamento para tipos de arquivos. O Databricks suporta muitos formatos de arquivo além dos que são fornecidos nesta tabela como exemplos.
Tipo de Arquivo |
Recomendação |
---|---|
Databricks objetos, como o Notebook e as consultas |
Armazenar como arquivos workspace |
Arquivos de dados estruturados, como arquivos Parquet e arquivos ORC |
Armazenamento em volumes do Unity Catalog |
Arquivos de dados semiestruturados, como arquivos de texto ( |
Armazenamento em volumes do Unity Catalog |
Arquivos de dados não estruturados, como arquivos de imagem ( |
Armazenamento em volumes do Unity Catalog |
Arquivos de dados brutos usados para exploração adhoc ou inicial de dados |
Armazenamento em volumes do Unity Catalog |
Dados operacionais, como arquivos log |
Armazenamento em volumes do Unity Catalog |
Arquivos compactados grandes, como arquivos ZIP ( |
Armazenamento em volumes do Unity Catalog |
Arquivos de código-fonte, como arquivos Python ( |
Armazene como arquivos workspace, se aplicável, com outros objetos relacionados, como Notebook e consultas. Databricks recomenda gerenciar esses arquivos em uma pastaGit para controle de versão e acompanhamento de alterações desses arquivos. |
Crie artefatos e biblioteca, como rodas Python ( |
Armazenamento em volumes do Unity Catalog |
Arquivos de configuração |
Armazene os arquivos de configuração necessários em todo o espaço de trabalho em volumes Unity Catalog, mas armazene-os como arquivos workspace se forem arquivos de projeto em uma pastaGit . |
comparação de recursos
A tabela a seguir compara as ofertas de workspace recurso dos arquivos e dos Unity Catalog volumes.
Recurso |
workspace arquivos |
Unity Catalog volumes |
---|---|---|
Acesso a arquivos |
workspace Os arquivos só podem ser acessados entre si dentro do mesmo workspace. |
Os arquivos podem ser acessados globalmente em todo o espaço de trabalho. |
Acesso programático |
Os arquivos podem ser acessados usando:
|
Os arquivos podem ser acessados usando: |
Databricks Pacotes ativos |
Em default, todos os arquivos em um pacote, que inclui biblioteca e objetos Databricks como Notebook e consultas, são implantados com segurança como arquivos workspace. As permissões são definidas na configuração do pacote. |
Os pacotes podem ser personalizados para incluir a biblioteca já em volumes quando a biblioteca exceder o limite de tamanho dos arquivos workspace. Consulte Databricks ativo Bundles biblioteca dependencies. |
Nível de permissão do arquivo |
As permissões estão no nível da pasta Git se o arquivo estiver em uma pasta Git; caso contrário, as permissões são definidas no nível do arquivo. |
As permissões estão no nível do volume. |
Gerenciamento de permissões |
As permissões são gerenciadas pelas workspace ACLs do site e são limitadas ao site que as workspace contém. |
Os metadados e as permissões são gerenciados por Unity Catalog. Essas permissões são aplicáveis a todos os espaços de trabalho que têm acesso ao catálogo. |
Suporte para armazenamento externo |
Não suporta a montagem de armazenamento externo |
Oferece a opção de apontar para um conjunto de dados pré-existente no armazenamento externo, criando um volume externo. Consulte O que são volumes do Unity Catalog? |
Suporte a UDF |
Não suportado |
A gravação de UDFs é compatível com o uso do Volumes FUSE |
Tamanho do Arquivo |
Armazene arquivos menores, com menos de 500 MB, como arquivos de código-fonte ( |
Armazene arquivos de dados muito grandes nos limites determinados pelos provedores de serviços cloud. |
upload & download |
Suporte para upload e download de até 10 MB. |
Suporte para upload e download de até 5 GB. |
Suporte à criação de tabelas |
As tabelas não podem ser criadas com arquivos workspace como local. |
As tabelas podem ser criadas a partir de arquivos em um volume executando |
Estrutura de diretórios & caminhos de arquivos |
Os arquivos são organizados em diretórios aninhados, cada um com seu próprio modelo de permissão:
|
Os arquivos são organizados em diretórios aninhados dentro de um volume |
Arquivo histórico |
Use a pastaGit no espaço de trabalho para rastrear as alterações nos arquivos. |
Auditoria logs está disponível. |