gerenciar arquivo ativo nas pastas do Databricks Git

As pastas Git da Databricks servem como clientes Git para clones gerenciados pela Databricks de repositórios de origem baseados em Git, permitindo que o senhor execute um subconjunto de operações Git em seus conteúdos a partir do seu site workspace. Como parte dessa integração com o Git, os arquivos armazenados no site repo remoto são vistos como "ativos" com base em seu tipo, com algumas limitações específicas para seu tipo. Notebook Os arquivos, em particular, têm propriedades diferentes com base em seu tipo. Leia este artigo para entender como trabalhar com o ativo, especialmente o IPYNB Notebook, em pastas Git.

Tipos de ativos suportados

Somente determinados tipos de ativos do Databricks são compatíveis com as pastas do Git. Nesse caso, "suportado" significa "pode ser serializado, controlado por versão e enviado para o Git de apoio repo".

Atualmente, os tipos de ativos suportados são:

Tipo de ativo

Detalhes

Arquivo

Os arquivos são dados serializados e podem incluir qualquer coisa, desde bibliotecas até binários, códigos e imagens. Para mais informações, leia O que são arquivos do espaço de trabalho?

Notebook

Notebook são especificamente os formatos de arquivo Notebook suportados pela Databricks. O Notebook é considerado um tipo de ativo do Databricks separado do Files, pois não é serializado. As pastas do Git determinam um Notebook pela extensão do arquivo (como .ipynb) ou por extensões de arquivo combinadas com um marcador especial no conteúdo do arquivo (por exemplo, um comentário # Databricks notebook source no início de arquivos de origem .py).

Pasta

Uma pasta é uma estrutura específica do Databricks que representa informações serializadas sobre um agrupamento lógico de arquivos no Git. Como esperado, o usuário experimenta isso como uma "pasta" ao visualizar uma pasta Git do Databricks ou ao acessá-la com a CLI do Databricks.

Os tipos do Databricks ativo que atualmente não são compatíveis com as pastas do Git incluem o seguinte:

  • Consultas DBSQL

  • Alertas

  • Dashboards (incluindo dashboards antigos)

Observação

O senhor pode mover o ativo não suportado existente para uma pasta Git, mas não pode fazer o commit das alterações desse ativo de volta para o site repo. O senhor não pode criar um novo ativo sem suporte em uma pasta Git.

Formatos Notebook

O Databricks considera dois tipos de formatos Notebook de alto nível específicos do Databricks: “fonte” e “ipynb”. Quando um usuário confirma um Notebook no formato “fonte”, a plataforma Databricks confirma um arquivo simples com um sufixo de idioma, como .py, .sql, .scala ou .r. Um Notebook no formato “fonte” contém apenas código-fonte e não contém saídas, como exibições de tabelas e visualizações que são os resultados da execução do Notebook.

O formato "ipynb", no entanto, tem saídas associadas a ele, e esses artefatos são automaticamente enviados para o Git repo que faz o backup da pasta Git ao enviar o .ipynb Notebook que os gerou. Se quiser commit saídas junto com o código, use o formato "ipynb" Notebook e a configuração de instalação para permitir que um usuário commit qualquer saída gerada. Como resultado, o "ipynb" também oferece suporte a uma melhor experiência de visualização no Databricks para o Notebook enviado para repositórios Git remotos por meio de pastas Git.

Formato de origem Notebook

Detalhes

Origem

Pode ser qualquer arquivo de código com um sufixo de arquivo padrão que sinalize a linguagem de código, como .py, .scala, .r e .sql. Os notebooks “fonte” são tratados como arquivos de texto e não incluirão nenhuma saída associada quando confirmados em um repo Git.

ipynb

Os arquivos “ipynb” terminam com .ipynb e podem, se configurados, enviar saídas (como visualizações) da pasta Git do Databricks para o repo Git de apoio. Um Notebook .ipnynb pode conter código em qualquer linguagem suportada pelo notebook do Databricks (apesar da parte py de .ipynb).

Se você quiser que as saídas sejam enviadas de volta para seu repo depois de executar um Notebook, use um Notebook .ipynb (Jupyter) . Se você deseja apenas executar o Notebook e gerenciá-lo no Git, use um formato de “fonte” como .py.

Para obter mais detalhes sobre os formatos Notebook suportados, leia Exportar e importar Databricks Notebook.

Observação

O que são “saídas”?

As saídas são os resultados da execução de um Notebook na plataforma Databricks, incluindo exibições de tabelas e visualizações.

Como posso saber qual formato um Notebook está usando, além da extensão do arquivo?

No topo de um Notebook gerenciado pelo Databricks, geralmente há um comentário de uma linha que indica o formato. Por exemplo, para um Notebook de “fonte” .py , você verá uma linha semelhante a esta:

# Databricks notebook source

Para arquivos .ipynb, o sufixo do arquivo é usado para indicar que é o formato Notebook “ipynb”.

Notebook do IPYNB nas pastas Git do Databricks

O suporte para o Jupyter Notebook (arquivos .ipynb) está disponível nas pastas do Git. O senhor pode clonar repositórios com o .ipynb Notebook, trabalhar com eles no produto Databricks e, em seguida, fazer o commit e o push como .ipynb Notebook. Metadados como o painel de controle Notebook são preservados. Os administradores podem controlar se as saídas podem ser confirmadas ou não.

Permitir confirmação da saída Notebook .ipynb

Em default, a configuração do administrador para as pastas Git não permite que a saída .ipynb Notebook seja confirmada. workspace Os administradores podem alterar essa configuração:

  1. Vá para Configurações de administrador > configurações workspace .

  2. Em Pastas Git > Allow Git folders to Export IPYNB outputs (Permitir que as pastas Git exportem saídas IPYNB), selecione Allow(Permitir): As saídas do IPYNB podem ser ativadas.

    Console de administração: Permitir que as pastas Git exportem as saídas do IPYNB.

Importante

Quando as saídas são incluídas, as configurações de visualização e painel são preservadas com o .ipynb formato de arquivo.

Controlar o commit do artefato de saída Notebook IPYNB

Quando você commit um arquivo .ipynb, o Databricks cria um arquivo de configuração que permite controlar como você commit as saídas: .databricks/commit_outputs.

  1. Se você tiver um arquivo .ipynb Notebook , mas nenhum arquivo de configuração em seu repo, abra o modal Git Status.

  2. Na caixa de diálogo de notificação, clique em Criar arquivo de confirmação.

    Notebook commit UI : botão Criar arquivo commit_outputs.

Você também pode gerar arquivos de configuração no menu Arquivo . O menu Arquivo possui um controle que permite atualizar automaticamente o arquivo de configuração para especificar a inclusão ou exclusão de saídas para um Notebook específico.

  1. No menu Arquivo , selecione commit saídas do Notebook.

    Editor Noteboook: commit Status e controle das saídas do Notebook.
  2. Na caixa de diálogo, confirme sua escolha de commit as saídas Notebook .

    caixa de diálogo de saídas commit Notebook.

Converter uma fonte Notebook para IPYNB

O senhor pode converter uma fonte existente Notebook em uma pasta Git para um IPYNB Notebook por meio da UI do Databricks.

  1. Abra uma fonte Notebook em seu site workspace.

  2. Selecione File (Arquivo ) no menu workspace e, em seguida, selecione Change Notebook format [source] (Alterar formato [fonte]). Se o site Notebook já estiver no formato IPYNB, [source] será [ipynb] no elemento do menu.

    O menu do arquivo workspace, expandido, mostra a opção Change Notebook format (Alterar formato ).
  3. Na caixa de diálogo modal, selecione "Jupyter Notebook format (.ipynb)" e clique em Change.

    A caixa de diálogo modal onde o senhor pode selecionar o formato IPYNB Notebook.

Você também pode:

  • Crie um novo bloco de notas .ipynb .

  • view diferenças como Code diff (alterações de código nas células) ou Raw diff (alterações de código são apresentadas como sintaxe JSON, que inclui saídas Notebook como metadados).

Para obter mais informações sobre os tipos de Notebook suportados no Databricks, leia Exportar e importar Databricks Notebook.