Configurar as pastas Git do Databricks (Repos)

Saiba como configurar as pastas Git do Databricks (anteriormente Repos) para controle de versão. Depois de configurar as pastas do Git no Databricks, o usuário pode executar operações comuns do Git, como clonagem, checkout, commit, push, pull e gerenciamento de ramificações, a partir da interface do usuário do Databricks. O senhor também pode ver os diffs das suas alterações à medida que desenvolve com o Notebook e os arquivos no Databricks.

Definir configurações do usuário

As pastas Git da Databricks usam um access token pessoal (PAT) ou uma credencial equivalente para se autenticar com seu provedor Git para realizar operações como clonar, empurrar, puxar etc. Para usar as pastas do Git, o senhor deve primeiro adicionar seu Git PAT e o nome de usuário do provedor do Git à Databricks. Consulte Configurar credenciais do Git e conectar um repo remoto ao Databricks.

Você pode clonar repositórios remotos públicos sem credenciais Git (um access token pessoal e um nome de usuário). Para modificar repositórios remotos públicos ou clonar ou modificar repositórios remotos privados, você deve ter um nome de usuário do provedor Git e PAT com permissões de gravação (ou superiores) para os repositórios remotos.

As pastas Git são ativadas por default. Para obter mais detalhes sobre como ativar ou desativar o suporte à pasta Git, consulte Ativar ou desativar o recurso de pasta Git do Databricks.

Adicionar ou editar credenciais do Git no Databricks

Importante

As pastas Git da Databricks suportam apenas uma credencial Git por usuário, por workspace.

  1. Selecione a seta para baixo ao lado do nome account no canto superior direito da tela e, em seguida, selecione Settings (Configurações).

  2. Selecion e a tab account vinculada .

  3. Se você estiver adicionando credenciais pela primeira vez, siga as instruções na tela.

    Se você já inseriu credenciais anteriormente, clique em Configuração > Editar e vá para a próxima etapa.

  4. No menu suspenso do provedor Git, selecione o nome do provedor.

  5. Digite seu nome de usuário ou email do Git.

  6. No campo tokens , adicione um access token pessoal (PAT) ou outras credenciais do seu provedor Git. Para obter detalhes, consulte Configurar credenciais do Git e conectar um repo remoto ao Databricks

    Importante

    Databricks recomenda que você defina uma data de expiração para todos access token pessoal.

    Para o Azure DevOps, a integração do Git não é compatível com os tokens de ID do Microsoft Entra. O senhor deve usar um Azure DevOps pessoal access token. Consulte Conectar-se ao projeto Azure DevOps usando um token DevOps.

    Se sua organização tiver SAML SSO habilitado no GitHub, autorize seus access tokens pessoal para SSO.

  7. Insira seu nome de usuário no campo nome de usuário do provedor Git .

  8. Clique em Salvar.

Você também pode salvar tokens PAT do Git e nome de usuário no Databricks usando a API repo do Databricks.

Conectividade de rede entre as pastas Git da Databricks e um provedor Git

As pastas Git precisam de conectividade de rede com o seu provedor Git para funcionar. Em geral, isso é feito pela Internet e funciona imediatamente. No entanto, o senhor pode ter configurado restrições adicionais no seu provedor Git para controlar o acesso. Por exemplo, o senhor pode ter uma lista de permissões de IP em vigor ou pode hospedar seu próprio servidor Git on-premises usando um serviço como o GitHub Enterprise (GHE), o Bitbucket Server (BBS) ou o Gitlab Self-gerenciar. Dependendo da hospedagem e da configuração de sua rede, o servidor Git pode não ser acessível pela Internet.

Observação

  • Se o seu servidor Git estiver acessível pela Internet, mas tiver uma lista de permissões de IP em vigor, como GitHub permitir listas, você deverá adicionar IPs NAT do plano de controle do Databricks à lista de permissões de IP do servidor Git. Consulte clouds e regiões do Databricks para obter uma lista de endereços IP NAT do plano de controle por região. Use o IP da região em que seu workspace do Databricks está.

  • Se estiver hospedando um servidor Git privado, leia Configurar conectividade Git privada para pastas Git da Databricks (Repos) ou entre em contato com a equipe da Databricks account para obter instruções de integração para acesso.

Recurso de segurança em pastas Git

As pastas Git da Databricks têm muitos recursos de segurança. As seções a seguir orientam o senhor sobre a configuração e o uso desses recursos:

  • Uso de credenciais Git criptografadas

  • Uma lista de permissões

  • controle de acesso workspace

  • Detecção de segredos

Restringir o uso a URLs em uma lista de permissões

Um administrador workspace pode limitar de quais repositórios remotos os usuários podem clonar, commit e enviar. Isso ajuda a evitar a exfiltração do seu código; por exemplo, os usuários não poderão enviar código para um repositório arbitrário se você tiver ativado as restrições da lista de permissões. Você também pode impedir que os usuários usem código não licenciado restringindo as operações de clones a uma lista de repositórios permitidos.

Para configurar uma lista de permissões:

  1. Vá para a página de configurações.

  2. Clique no site workspace admin tab (ele é aberto pelo site default).

  3. Na seção Development (Desenvolvimento ), escolha uma opção da permissão de lista de permissão de URLs do Git:

    • Desativado (sem restrições): Não há verificações na lista de permissões.

    • Restringir Clone, Commit e Push aos repositórios Git permitidos: As operações de clonagem, commit e push são permitidas somente para URLs de repositório na lista de permissões.

    • Restringir apenas commit & Push para repositórios Git permitidos: commit e operações push são permitidas apenas para URLs de repositório na lista de permissões. As operações de clone e pull não são restritas.

    O painel Desenvolvimento em Configurações do administrador, usado para definir o acesso do usuário ao Git
  4. Clique no botão Edit ao lado de Git URL allow list: Lista vazia e insira uma lista de prefixos de URL separados por vírgula.

    O botão Editar lista de permissões nas configurações administrativas de Desenvolvimento
  5. Clique em Salvar.

Observação

  • A lista salva substitui o conjunto existente de prefixos de URL salvos.

  • Pode levar até 15 minutos para que as alterações entrem em vigor.

Permitir acesso a todos os repositórios

Para desabilitar uma lista de permissões existente e permitir acesso a todos os repositórios:

  1. Vá para a página de configurações.

  2. Clique em workspace admin tab.

  3. Na seção Development (Desenvolvimento ), em Git URL allow list permission (Permissão de lista de permissão de URL do Git): selecione Disable (sem restrições).

Controle o acesso a um repositório em seu espaço de trabalho

Observação

O controle de acesso está disponível apenas no plano Premium.

Defina permissões para um repo para controlar o acesso. As permissões para um repo se aplicam a todo o conteúdo desse repo. O senhor pode atribuir cinco níveis de permissão aos arquivos: SEM PERMISSÕES, PODE LER, PODE EXECUTAR, PODE EDITAR e PODE GERENCIAR.

Para obter mais detalhes sobre as permissões de pastas do Git, consulte ACLs de pastas do Git.

(Opcional) Configurar um proxy para servidores Git corporativos

Se a sua empresa usa um serviço Git empresarial on-premises, como o GitHub Enterprise ou o Azure DevOps Server, o senhor pode usar o Databricks Git Server Proxy para conectar o espaço de trabalho do Databricks aos repositórios que ele atende.

Log de auditoria

Quando o registro de auditoria está ativado, os eventos de auditoria são registrados quando o usuário interage com uma pasta Git. Por exemplo, um evento de auditoria é registrado quando o usuário cria, atualiza ou exclui uma pasta Git, quando lista todas as pastas Git associadas a uma workspace e quando sincroniza alterações entre a pasta Git e a pasta remota Git repo.

Detecção de segredos

O código de varredura das pastas Git para acesso key IDs que começam com o prefixo AKIA e avisa o usuário antes de fazer o commit.

Use um arquivo de configuração do repositório

Você pode adicionar configurações para cada Notebook ao seu repositório em um arquivo .databricks/commit_outputs criado manualmente.

Especifique o Notebook que você deseja incluir saídas usando padrões semelhantes aos padrões gitignore.

Padrões para um arquivo de configuração do repo

O arquivo contém padrões de caminho de arquivo positivos e negativos. Os padrões de caminho de arquivo incluem extensões de arquivo Notebook , como .ipynb.

  • Padrões positivos permitem inclusão de saídas para Notebook correspondente.

  • Padrões negativos desabilitam a inclusão de saídas para Notebook correspondente.

Os padrões são avaliados em ordem para todos Notebook. Caminhos inválidos ou caminhos que não resolvem para .ipynb Notebook são ignorados.

Para incluir saídas de um caminho Notebook folder/innerfolder/notebook.ipynb, use os seguintes padrões:

**/*
folder/**
folder/innerfolder/note*

Para excluir saídas de um Notebook, verifique se nenhum dos padrões positivos corresponde ou adicione um padrão negativo em um local correto do arquivo de configuração. Padrões negativos (excluídos) começam com !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Mover a pasta Git para a lixeira (excluir)

Para excluir uma pasta Git do site workspace:

  1. Clique com o botão direito do mouse na pasta Git e selecione Mover para a lixeira.

  2. Na caixa de diálogo, digite o nome da pasta Git que o senhor deseja excluir. Em seguida, clique em Confirm & move to trash.

    Confirme a caixa de diálogo Mover para a Lixeira.