O que aconteceu com o Databricks Repos?

A Databricks lançou novos elementos de interface de usuário que permitem que os usuários trabalhem diretamente com pastas apoiadas em repositórios Git a partir da interface de usuário workspace, substituindo efetivamente a funcionalidade anterior e separada do recurso "Repos".

O que essa mudança significa para mim?

Se o senhor for um usuário do recurso Databricks Repos para controle de fonte baseado em Git com versão conjunta do projeto ativo, a funcionalidade principal não foi alterada. A diferença mais notável é que muitas operações contextuais da UI agora se referem a "pastas Git" em vez de "Repos".

Por exemplo, uma pasta do Databricks apoiada por um Git repo poderia ser criada selecionando New (Novo ) e depois repo na interface do usuário:

A opção de menu "New" costumava se referir a um "repo"

Agora, o senhor seleciona New e escolhe a pasta Git. É a mesma coisa, mas com um nome diferente!

A opção de menu "New" agora solicita que o senhor crie uma pasta Git ""

Essa alteração oferece alguns aprimoramentos que simplificam o trabalho com pastas controladas por versão:

  1. Melhor organização de pastas: As pastas do Git podem ser criadas em qualquer nível da árvore de arquivos workspace, permitindo que o senhor organize as pastas do Git da maneira mais adequada ao seu projeto. Por exemplo, o senhor pode criar pastas Git em /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>. Repos só pode ser criado em um nível de diretório fixo, como a raiz da pasta do usuário Repos, como /Workspace/Repos/<user email>/<Repo name>.

    • Observação: as pastas do Git podem conter ou se associar a outros ativos que não são compatíveis com os Repos atualmente. Tipos de ativo não suportados, como DBSQL ativo e experimentos MLflow, podem ser movidos para pastas Git. O suporte à serialização para outros ativos será adicionado ao longo do tempo.

  2. Comportamentos simplificados da interface do usuário: Essa alteração traz uma interação comum do workspace - trabalhar com o Git - diretamente para o seu Databricks workspace e reduz o tempo gasto na navegação entre o workspace e as pastas do Git controladas por versão.

O que mudou, especificamente?

  1. As pastas Git podem ser criadas fora do diretório /Repos.

  2. As pastas Git são criadas selecionando New > Git folder em um Databricks workspace. Isso cria uma nova pasta Git em /Workspace/Users/<user-email>/.

  3. As pastas do Git podem ser criadas em várias profundidades da árvore de arquivos workspace, desde que estejam sob /Workspace/Users/<user-email>. Por exemplo, o senhor pode criar pastas Git em /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>. O senhor pode ter várias pastas Git em /Workspace/Users/<user-email>.

  4. Os ativos sem suporte são permitidos nas pastas do Git. O suporte à serialização para outros tipos de ativos será adicionado com o tempo.

  5. Ao contrário dos Repos, o senhor não pode criar uma nova pasta Git no Databricks sem um URL de repositório remoto.

Detalhes adicionais

O site Repos existente que os usuários criaram não desaparecerá. Não é necessário que os usuários migrem os Repos existentes para pastas Git. Repos foram integrados à interface do usuário workspace e não são mais uma experiência de nível superior separada na interface do usuário.

  • As referências /Repos existentes continuarão funcionando: As referências jobs, dbutils.notebook.run e %run que usam o Notebook localizado nos caminhos /Repos continuarão funcionando.

  • A pasta /Repos existente será convertida em uma pasta normal em /Workspace como /Workspace/Repos, e qualquer tratamento especial poderá ser removido. Em casos raros, talvez o senhor precise fazer alguma modificação no seu site workspace para que esse redirecionamento funcione. Para obter mais detalhes, consulte Referências a objetos do espaço de trabalho.

A Databricks recomenda que os usuários criem novas pastas Git em vez de Repos se precisarem se conectar ao controle de origem do Git a partir do site da Databricks workspace. Colocar repositórios do Git e outros workspace ativos torna as pastas do Git mais fáceis de descobrir e gerenciar do que Repos.

Git permissões de pasta As pastas Git têm as mesmas permissões de pastaworkspace que outras pastas workspace. Os usuários devem ter a permissão CAN_MANAGE para realizar a maioria das operações do Git.

Qual DBR devo usar para executar o código nas pastas do Git?

Para uma execução consistente do código entre as pastas Git e o legado Repos, recomendamos que os usuários executem o código nas pastas Git com o DBR 14.3+.

Comportamento do diretório de trabalho atual (CWD)

O Databricks Runtime (DBR) versão 14 ou superior fornece a mesma experiência de diretório de trabalho atual (CWD) para todo o Notebook, em que o diretório de trabalho atual é a pasta a partir da qual o Notebook é executado e que permite o uso de caminhos relativos. A experiência do CWD pode ser inconsistente entre o Notebook em uma pasta Git e uma pasta não-Git para versões mais antigas do Databricks Runtime (DBR).

Comportamento do sys.path do Python

O Databricks Runtime (DBR) versão 14.3 ou superior fornece o mesmo comportamento sys.path nas pastas Git e nos Repos antigos. Nas versões anteriores do DBR, as pastas Git têm um comportamento diferente do legado Repos, pois o diretório raiz repo não é adicionado automaticamente ao sys.path para as pastas Git. Para Python, sys.path contém uma lista de diretórios que o interpretador pesquisa ao importar módulos. Se não for possível usar o DBR 14.3 ou o acima, como alternativa, o senhor pode anexar manualmente um caminho de pasta a sys.path.

Para obter exemplos sobre como adicionar diretórios a sys.path usando caminhos relativos, consulte Importar módulos Python e R.

Precedência da biblioteca Python

O Databricks Runtime (DBR) versão 14.3 ou superior fornece a mesma precedência da bibliotecaPython nas pastas do Git que nos Repos antigos.