Implemente fluxos de trabalho de processamento e análise de dados com jobs

O senhor pode usar um Job Databricks para orquestrar seu processamento de dados, machine learning, ou pipeline de análise de dados na plataforma Databricks. Databricks Os trabalhos oferecem suporte a vários tipos de carga de trabalho, incluindo Notebook, scripts, pipeline Delta Live Tables, consultas Databricks SQL e dbt projetos. Os artigos a seguir orientam o senhor a usar o recurso e as opções do Databricks Jobs para implementar seu pipeline de dados.

Use transformações dbt em um job

Use o tipo de tarefa dbt se você estiver fazendo transformação de dados com um projeto principal de dbt e quiser integrar esse projeto em um job do Databricks, ou se quiser criar novas transformações de dbt e executar essas transformações em um job. Consulte Usar transformações dbt em uma tarefa do Databricks.

Use um pacote Python em um job

Python wheel são uma forma padrão de empacotar e distribuir os arquivos necessários para executar um aplicativo Python. O senhor pode criar facilmente um trabalho que use o pacote de código Python como um arquivo Python wheel com o tipo de tarefa Python wheel. Consulte Usar um arquivo Python wheel em um trabalho Databricks .

Usar código empacotado em um JAR

Bibliotecas e aplicativos implementados em uma linguagem JVM, como Java e Scala, são comumente empacotados em um arquivo Java archive (JAR). O Databricks Jobs oferece suporte ao código empacotado em um JAR com o tipo de tarefa JAR. Consulte Usar um JAR em um job do Databricks.

Usar notebook ou código Python mantido em um repositório central

Uma maneira comum de gerenciar o controle de versão e a colaboração para artefatos de produção é usar um repositório central, como o GitHub. Databricks O Jobs suporta a criação e a execução de trabalhos usando o Notebook ou o código Python importado de um repositório, incluindo as pastas GitHub ou Databricks Git . Consulte Usar código-fonte com controle de versão em um trabalho Databricks .

Organize seus jobs com o Apache Airflow

A Databricks recomenda usar o Databricks Jobs para orquestrar seus fluxos de trabalho. No entanto, o Apache Airflow é comumente utilizado como um sistema de orquestração de fluxo de trabalho e oferece compatibilidade nativa para jobs do Databricks. Enquanto o Databricks Jobs oferece uma interface de usuário visual para criar seus fluxos de trabalho, o Airflow usa arquivos Python para definir e implementar seus pipelines de dados. Para obter um exemplo de criação e execução de um job com o Airflow, consulte Orquestrar jobs do Databricks com o Apache Airflow.