Usar código-fonte controlado por versão em um Jobdo Databricks
O senhor pode executar o Job usando o Notebook ou o código Python localizado em um repositório Git remoto ou em uma pasta Databricks Git . Esse recurso simplifica a criação e o gerenciamento do trabalho de produção e automatiza a implementação contínua:
Você não precisa criar um repositório de produção separado no Databricks, gerenciar suas permissões e mantê-lo atualizado.
Você pode impedir alterações não intencionais em um Job de produção, como edições locais no repositório de produção ou alterações na troca de uma ramificação.
O processo de definição Job tem uma única fonte de verdade no repositório remoto e cada execução Job está vinculada a um hash commit .
Para usar o código-fonte em um repositório Git remoto, o senhor deve configurar as pastas Git do Databricks (Repos).
Use um Notebook de um repositório Git remoto
Para criar uma tarefa com um Notebook localizado em um repositório Git remoto:
Clique fluxo de trabalho na barra lateral e clique ou vá para um Job existente e adicione uma nova tarefa.
Se este for um novo Job, substitua Adicionar um nome para o seu Job pelo nome do seu Job .
Insira um nome para a tarefa no campo Nome da tarefa .
No menu suspenso Tipo , selecione Notebook.
No menu suspenso Fonte , selecione Provedor Git e clique em Editar ou Adicionar uma referência git. A caixa de diálogo de informações do Git é exibida.
Na caixa de diálogo Informação do Git , insira os detalhes do repositório, incluindo a URL do repositório, o Provedor do Git e a referência do Git. Essa referência do Git pode ser um branch, um tags ou um commit.
Para Path, insira um caminho relativo para o local Notebook , como
etl/notebooks/
.Ao inserir o caminho relativo, não comece com
/
ou./
e não inclua a extensão do arquivo Notebook , como.py
. Por exemplo, se o caminho absoluto para o Notebook que você deseja acessar for/notebooks/covid_eda_raw.py
, insiranotebooks/covid_eda_raw
no campo Caminho.Clique em Criar.
Use o código Python de um repositório Git remoto
Para criar uma tarefa com código Python localizado em um repositório Git remoto:
Clique fluxo de trabalho na barra lateral e clique ou vá para um Job existente e adicione uma nova tarefa.
Se este for um novo Job, substitua Adicionar um nome para o seu Job pelo nome do seu Job .
Insira um nome para a tarefa no campo Nome da tarefa .
No menu suspenso Tipo , selecione Script Python.
No menu suspenso Fonte , selecione Provedor Git e clique em Editar ou Adicionar uma referência git. A caixa de diálogo de informações do Git é exibida.
Na caixa de diálogo Informação do Git , insira os detalhes do repositório, incluindo a URL do repositório, o Provedor do Git e a referência do Git. Essa referência do Git pode ser um branch, um tags ou um commit.
Para Path, insira um caminho relativo para o local de origem, como
etl/python/python_etl.py
.Ao inserir o caminho relativo, não comece com
/
ou./
. Por exemplo, se o caminho absoluto para o código Python que você deseja acessar for/python/covid_eda_raw.py
, insirapython/covid_eda_raw.py
no campo Caminho.Clique em Criar.
Quando você view o histórico de execução de uma tarefa que executa o código Python armazenado em um repositório Git remoto, o painel Detalhes da execução da tarefa inclui detalhes do Git, incluindo o commit SHA associado à execução.
Adicionando tarefas adicionais de um repositório Git remoto
Tarefas adicionais em um Job multitarefa podem fazer referência ao mesmo commit no repositório remoto de uma das seguintes maneiras:
sha
de$branch/head
quandogit_branch
é definidosha
de$tag
quandogit_tag
é definidoo valor de
git_commit
Você pode misturar tarefas Notebook e do Python em um Job do Databricks, mas elas devem usar a mesma referência do Git.
Usar uma pasta Git da Databricks
Se preferir usar a interface do usuário do Databricks para controlar a versão do seu código-fonte, clone seu repositório em uma pasta Git do Databricks. Para obter mais informações, consulte Opção 2: Configurar uma pasta Git de produção e automação Git.
Para adicionar um código Notebook ou Python de uma pasta Git em uma tarefa Job, no menu suspenso Source (Fonte ), selecione workspace e insira o caminho para o código Notebook ou Python em Path.
Acesse Notebook a partir de um IDE
Se você precisar acessar Notebook a partir de um ambiente de desenvolvimento integrado, certifique-se de ter o comentário # Databricks notebook source
na parte superior do arquivo de código-fonte Notebook . Para distinguir entre um arquivo Python regular e um Notebook em linguagem Python do Databricks exportado no formato de código-fonte, o Databricks adiciona a linha # Databricks notebook source
na parte superior do arquivo de código-fonte Notebook . Quando você importa o Notebook, o Databricks o reconhece e o importa como um Notebook, não como um módulo Python.
Solução de problemas
Observação
Job baseado em Git não oferece suporte ao acesso de gravação aos arquivos workspace . Para gravar dados em um local de armazenamento temporário, use o armazenamento do driver. Para gravar dados persistentes de um Git Job, use um volume UC ou DBFS.
Mensagem de erro:
Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook
Possíveis causas:
Seu Notebook não tem o comentário # Databricks notebook source
na parte superior do arquivo de código-fonte Notebook ou, no comentário, notebook
é maiúsculo quando deve começar com n
minúsculo.