Usar código-fonte controlado por versão em um Jobdo Databricks

O senhor pode executar o Job usando o Notebook ou o código Python localizado em um repositório Git remoto ou em uma pasta Databricks Git . Esse recurso simplifica a criação e o gerenciamento do trabalho de produção e automatiza a implementação contínua:

  • Você não precisa criar um repositório de produção separado no Databricks, gerenciar suas permissões e mantê-lo atualizado.

  • Você pode impedir alterações não intencionais em um Job de produção, como edições locais no repositório de produção ou alterações na troca de uma ramificação.

  • O processo de definição Job tem uma única fonte de verdade no repositório remoto e cada execução Job está vinculada a um hash commit .

Para usar o código-fonte em um repositório Git remoto, o senhor deve configurar as pastas Git do Databricks (Repos).

Use um Notebook de um repositório Git remoto

Para criar uma tarefa com um Notebook localizado em um repositório Git remoto:

  1. Clique Ícone de trabalhos fluxo de trabalho na barra lateral e clique Botão Criar Job ou vá para um Job existente e adicione uma nova tarefa.

  2. Se este for um novo Job, substitua Adicionar um nome para o seu Job pelo nome do seu Job .

  3. Insira um nome para a tarefa no campo Nome da tarefa .

  4. No menu suspenso Tipo , selecione Notebook.

  5. No menu suspenso Fonte , selecione Provedor Git e clique em Editar ou Adicionar uma referência git. A caixa de diálogo de informações do Git é exibida.

  6. Na caixa de diálogo Informação do Git , insira os detalhes do repositório, incluindo a URL do repositório, o Provedor do Git e a referência do Git. Essa referência do Git pode ser um branch, um tags ou um commit.

    Para Path, insira um caminho relativo para o local Notebook , como etl/notebooks/.

    Ao inserir o caminho relativo, não comece com / ou ./ e não inclua a extensão do arquivo Notebook , como .py. Por exemplo, se o caminho absoluto para o Notebook que você deseja acessar for /notebooks/covid_eda_raw.py, insira notebooks/covid_eda_raw no campo Caminho.

  7. Clique em Criar.

Use o código Python de um repositório Git remoto

Para criar uma tarefa com código Python localizado em um repositório Git remoto:

  1. Clique Ícone de trabalhos fluxo de trabalho na barra lateral e clique Botão Criar Job ou vá para um Job existente e adicione uma nova tarefa.

  2. Se este for um novo Job, substitua Adicionar um nome para o seu Job pelo nome do seu Job .

  3. Insira um nome para a tarefa no campo Nome da tarefa .

  4. No menu suspenso Tipo , selecione Script Python.

  5. No menu suspenso Fonte , selecione Provedor Git e clique em Editar ou Adicionar uma referência git. A caixa de diálogo de informações do Git é exibida.

  6. Na caixa de diálogo Informação do Git , insira os detalhes do repositório, incluindo a URL do repositório, o Provedor do Git e a referência do Git. Essa referência do Git pode ser um branch, um tags ou um commit.

    Para Path, insira um caminho relativo para o local de origem, como etl/python/python_etl.py.

    Ao inserir o caminho relativo, não comece com / ou ./. Por exemplo, se o caminho absoluto para o código Python que você deseja acessar for /python/covid_eda_raw.py, insira python/covid_eda_raw.py no campo Caminho.

  7. Clique em Criar.

Quando você view o histórico de execução de uma tarefa que executa o código Python armazenado em um repositório Git remoto, o painel Detalhes da execução da tarefa inclui detalhes do Git, incluindo o commit SHA associado à execução.

Adicionando tarefas adicionais de um repositório Git remoto

Tarefas adicionais em um Job multitarefa podem fazer referência ao mesmo commit no repositório remoto de uma das seguintes maneiras:

  • sha de $branch/head quando git_branch é definido

  • sha de $tag quando git_tag é definido

  • o valor de git_commit

Você pode misturar tarefas Notebook e do Python em um Job do Databricks, mas elas devem usar a mesma referência do Git.

Usar uma pasta Git da Databricks

Se preferir usar a interface do usuário do Databricks para controlar a versão do seu código-fonte, clone seu repositório em uma pasta Git do Databricks. Para obter mais informações, consulte Opção 2: Configurar uma pasta Git de produção e automação Git.

Para adicionar um código Notebook ou Python de uma pasta Git em uma tarefa Job, no menu suspenso Source (Fonte ), selecione workspace e insira o caminho para o código Notebook ou Python em Path.

Acesse Notebook a partir de um IDE

Se você precisar acessar Notebook a partir de um ambiente de desenvolvimento integrado, certifique-se de ter o comentário # Databricks notebook source na parte superior do arquivo de código-fonte Notebook . Para distinguir entre um arquivo Python regular e um Notebook em linguagem Python do Databricks exportado no formato de código-fonte, o Databricks adiciona a linha # Databricks notebook source na parte superior do arquivo de código-fonte Notebook . Quando você importa o Notebook, o Databricks o reconhece e o importa como um Notebook, não como um módulo Python.

Solução de problemas

Observação

Job baseado em Git não oferece suporte ao acesso de gravação aos arquivos workspace . Para gravar dados em um local de armazenamento temporário, use o armazenamento do driver. Para gravar dados persistentes de um Git Job, use um volume UC ou DBFS.

Mensagem de erro:

Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook

Possíveis causas:

Seu Notebook não tem o comentário # Databricks notebook source na parte superior do arquivo de código-fonte Notebook ou, no comentário, notebook é maiúsculo quando deve começar com n minúsculo.