Implemente fluxos de trabalho de processamento e análise de dados com jobs

Você pode usar um Job do Databricks para orquestrar seu processamento de dados, machine learning ou pipeline de análise de dados na plataforma Databricks. Os trabalhos do Databricks suportam vários tipos de carga de trabalho, incluindo Notebook, scripts, Delta Live Tables,pipeline Databricks SQL querye projetos dbt . Os artigos a seguir orientam você no uso do recurso e das opções de Databricks Jobs para implementar seu pipeline de dados.

Use transformações dbt em um job

Use o tipo de tarefa dbt se você estiver fazendo transformação de dados com um projeto principal de dbt e quiser integrar esse projeto em um job do Databricks, ou se quiser criar novas transformações de dbt e executar essas transformações em um job. Consulte Usar transformações dbt em uma tarefa do Databricks.

Use um pacote Python em um job

Python wheel são uma forma padrão de empacotar e distribuir os arquivos necessários para executar um aplicativo Python. O senhor pode criar facilmente um Job que use o pacote de códigos Python como um arquivo Python wheel com o tipo de tarefa Python wheel. Consulte Usar um arquivo Python wheel em um Databricks Job .

Usar código empacotado em um JAR

Bibliotecas e aplicativos implementados em uma linguagem JVM, como Java e Scala, são comumente empacotados em um arquivo Java archive (JAR). O Databricks Jobs oferece suporte ao código empacotado em um JAR com o tipo de tarefa JAR. Consulte Usar um JAR em um job do Databricks.

Usar notebook ou código Python mantido em um repositório central

Uma maneira comum de gerenciar o controle de versão e a colaboração para artefatos de produção é usar um repositório central, como o GitHub. O Databricks Jobs suporta a criação e a execução de trabalhos usando o Notebook ou o código Python importado de um repositório, incluindo as pastas GitHub ou Databricks Git. Consulte Usar código-fonte com controle de versão em um Databricks Job.

Organize seus jobs com o Apache Airflow

A Databricks recomenda usar o Databricks Jobs para orquestrar seus fluxos de trabalho. No entanto, o Apache Airflow é comumente utilizado como um sistema de orquestração de fluxo de trabalho e oferece compatibilidade nativa para jobs do Databricks. Enquanto o Databricks Jobs oferece uma interface de usuário visual para criar seus fluxos de trabalho, o Airflow usa arquivos Python para definir e implementar seus pipelines de dados. Para obter um exemplo de criação e execução de um job com o Airflow, consulte Orquestrar jobs do Databricks com o Apache Airflow.