Integração do Git com as pastas Git do Databricks

As pastas Git do Databricks são um cliente Git visual e uma API no Databricks. Ele oferece suporte a operações comuns do Git, como clonagem de um repositório, commit e push, pull, gerenciamento de ramificações e comparação visual de diferenças ao fazer o commit.

Nas pastas do Git, o senhor pode desenvolver código no Notebook ou em outros arquivos e seguir as práticas recomendadas de desenvolvimento de código de engenharia e ciência de dados usando o Git para controle de versão, colaboração e CI/CD.

Visualização

A Databricks substituiu o recurso "Repos" pela funcionalidade integrada de pasta Git no espaço de trabalho da Databricks. Para obter mais detalhes sobre essa mudança, leia O que aconteceu com o Databricks Repos?

Esse recurso está em Public Preview em todas as regiões.

Observação

As pastas Git (Repos) são projetadas principalmente para a criação e o fluxo de trabalho colaborativo.

Para obter informações sobre a migração de uma integração com o legado Git, consulte Migrar para as pastas Git (anteriormente Repos) do legado Git.

O que o senhor pode fazer com as pastas Git da Databricks?

As pastas Git da Databricks fornecem controle de origem para projetos de dados e IA por meio da integração com provedores Git.

Nas pastas Git do Databricks, o senhor pode usar a funcionalidade do Git para:

  • Clone, push e pull de um repositório Git remoto.

  • Crie e gerencie filiais para trabalhos de desenvolvimento, incluindo fusão, reformulação e resolução de conflitos.

  • Crie Notebook (incluindo IPYNB Notebook) e edite-os e outros arquivos.

  • Compare visualmente as diferenças ao commit e resolva conflitos merge .

Para obter instruções passo a passo, consulte Execução de operações Git em pastas Git do Databricks (Repos).

Observação

As pastas Git da Databricks também têm uma API que pode ser integrada ao seu pipeline de CI/CD. Por exemplo, o senhor pode atualizar programaticamente um Databricks repo para que ele sempre tenha a versão mais recente do código. Para obter informações sobre as práticas recomendadas para o desenvolvimento de código usando as pastas Git da Databricks, consulte Técnicas de CI/CD com pastas Git e Databricks Git (Repos).

Para obter informações sobre os tipos de Notebook suportados no Databricks, consulte Exportar e importar Databricks Notebook.

Provedores Git compatíveis

As pastas Git do Databricks são apoiadas por um repositório Git integrado. O repositório pode ser hospedado por qualquer um dos provedores clouds e Git corporativos listados na seção a seguir.

Observação

O que é um “provedor Git”?

Um “provedor Git” é o serviço específico (nomeado) que hospeda um modelo de controle de origem baseado em Git. As plataformas de controle de origem baseadas em Git são hospedadas de duas maneiras: como um serviço clouds hospedado pela empresa desenvolvedora ou como um serviço local instalado e gerenciado pela sua própria empresa em seu próprio hardware. Muitos provedores de Git, como GitHub, Microsoft, GitLab e Atlassian, fornecem SaaS baseado em cloudse serviço Git local (às vezes chamado de “autogerenciamento”).

Ao escolher seu provedor Git durante a configuração, você deve estar ciente das diferenças entre clouds (SaaS) e provedores Git locais. soluções locais normalmente são hospedadas por uma VPN corporativa e podem não ser acessíveis pela Internet. Normalmente, os provedores Git locais têm um nome que termina em “Servidor” ou “Autogerenciar”, mas se você não tiver certeza, entre em contato com os administradores da sua empresa ou revise a documentação do provedor Git.

Se o seu provedor Git for baseado em cloude não estiver listado como um provedor compatível, selecionar "GitHub" como provedor pode funcionar, mas não é garantido.

Observação

Se você estiver usando o “GitHub” como provedor e ainda não tiver certeza se está usando a versão clouds ou local, consulte Sobre o GitHub Enterprise Server na documentação do GitHub.

provedores Git clouds suportados pelo Databricks

  • cloudsGitHub, GitHub AE e GitHub Enterprise

  • Atlassian Bitbucket clouds

  • GitLab e GitLab EE

  • Microsoft Azure DevOps ( repo do Azure)

  • AWS CodeCommit

Provedores Git locais com suporte do Databricks

  • Servidor GitHub Enterprise

  • Servidor e data center Atlassian Bitbucket

  • Autogerenciamento GitLab

  • Microsoft Azure DevOps Server: um administrador workspace deverá incluir explicitamente na lista de permissões os prefixos de domínio de URL para seu Microsoft Azure DevOps Server se o URL não corresponder a dev.azure.com/* ou visualstudio.com/*. Para obter mais detalhes, consulte Restringir o uso a URLs em uma lista de permissões

Se o senhor estiver integrando um Git on-premises repo que não seja acessível pela Internet, um proxy para solicitações de autenticação do Git também deverá ser instalado na VPN da sua empresa. Para obter mais detalhes, consulte Configurar conectividade Git privada para pastas Git do Databricks (Repos).

Para saber como usar access token com seu provedor Git, consulte Configurar credenciais do Git e conectar um repo remoto ao Databricks.

recurso para integração com Git

Use a CLI 2.0 do Databricks para integração do Git com o Databricks:

Leia os seguintes documentos de referência: