O que são arquivos de workspace?

Um arquivo workspace é um arquivo em sua árvore de arquivos Databricks workspace que não é um dos tipos listados a seguir:

  • Consultas

  • Painéis

  • genie espaços

  • Experiências

Além desses tipos excluídos, os arquivos workspace podem ser de qualquer tipo. Exemplos comuns incluem:

  • .ipynb Notebooks

  • Notebook de origem, que usam as extensões .py, .sql, .r e .scala

  • .py arquivos usados em módulos personalizados

  • .md arquivos, como README.md

  • .csv ou outros pequenos arquivos de dados

  • .txt Arquivos

  • .whl Bibliotecas

  • arquivos de registro

Para obter recomendações sobre como trabalhar com arquivos, consulte Recomendações para arquivos em volumes e workspace files.

Sua árvore de arquivos Databricks workspace pode conter pastas anexadas a um repositório Git chamado "Databricks Git folders". Eles têm algumas limitações adicionais no suporte a tipos de arquivo. Para obter uma lista dos tipos de arquivos compatíveis com as pastas Git (anteriormente "Repos"), consulte os tipos de arquivos ativos compatíveis com as pastas Git .

Importante

Os arquivos de espaço de trabalho são ativados em todos os lugares pelo site default na versão 11.2 do Databricks Runtime. Para cargas de trabalho de produção, use Databricks Runtime 11.3 LTS ou acima. Entre em contato com o administrador do site workspace se não conseguir acessar essa funcionalidade.

O que você pode fazer com arquivos do espaço de trabalho

O Databricks oferece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivo de workspace, incluindo um editor de arquivos interno. Nem todos os casos de uso de todos os tipos de arquivo são compatíveis.

Você pode criar, editar e gerenciar o acesso aos arquivos do workspace com padrões familiares das interações do notebook. Você pode usar caminhos relativos para importações de biblioteca de arquivos de workspace, semelhante ao desenvolvimento local. Para mais detalhes, consulte:

init script armazenado em arquivos workspace tem um comportamento especial. Você pode usar arquivos de workspace para armazenar e fazer referência init script em qualquer versão do Databricks Runtime. Consulte Armazenar init script em arquivos da área de trabalho.

Observação

No Databricks Runtime 14.0 e acima, o diretório de trabalho atual (CWD) default para o código executado localmente é o diretório que contém o Notebook ou script que está sendo executado. Esta é uma mudança de comportamento do Databricks Runtime 13.3 LTS e abaixo. Consulte Qual é o diretório de trabalho atual default ?.

Limitações

  • Se o seu fluxo de trabalho usar código-fonte localizado em um repositório Git remoto, não será possível gravar no diretório atual ou usar um caminho relativo. Grave dados em outras opções de localização.

  • Não é possível usar o comando git quando o senhor salva em arquivos workspace. A criação de diretórios .git não é permitida nos arquivos workspace.

  • A leitura de arquivos workspace usando o executor Spark (como spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) não é compatível com o serverless compute.

  • O executor não pode gravar em arquivos workspace.

  • Os links simbólicos só são suportados para diretórios de destino na pasta raiz /Workspace, como os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing").

  • Os arquivos do espaço de trabalho não podem ser acessados a partir de funções definidas pelo usuário (UDFs) em clusters com modo de acesso compartilhado em Databricks Runtime 14.2 e abaixo.

  • Os notebooks são suportados apenas como arquivos workspace em Databricks Runtime 16.2 e acima, e em serverless environment 2 e acima.

Limite de tamanho de arquivo

  • O tamanho do arquivo do espaço de trabalho é limitado a 500 MB. As operações que tentarem fazer download ou criar arquivos maiores que esse limite falharão.

Limite de permissão de acesso a arquivos

A permissão para acessar arquivos em pastas sob /Workspace expira após 36 horas para o site interativo compute e após 30 dias para o Job. Databricks recomenda executar execuções longas como Job se elas precisarem de acesso ao arquivo /workspace.

Habilitar arquivos de espaço de trabalho

Para habilitar o suporte para arquivos que não sejamNotebook em seu espaço de trabalho Databricks, chame o /api/2.0/workspace-conf API REST de um ambiente Notebook ou outro ambiente com acesso ao seu Databricks workspace. workspace são ativados por default.

Para ativar ou reativar o suporte a arquivos que não sejamNotebook em seu Databricks workspace, chame o /api/2.0/workspace-conf e obtenha o valor do enableWorkspaceFileSystem key. Se estiver definido como true, os arquivos nãoNotebook já estão habilitados para o seu workspace.

O exemplo a seguir demonstra como o senhor pode chamar esse API a partir de um Notebook para verificar se os arquivos workspace estão desativados e, em caso afirmativo, reativá-los.

Exemplo: Notebook para reativar o suporte a arquivos de espaço de trabalho do Databricks

Abra o bloco de anotações em outra guia