Implemente fluxos de trabalho de processamento e análise de dados com jobs
O senhor pode usar um Job Databricks para orquestrar seu processamento de dados, machine learning, ou pipeline de análise de dados na plataforma Databricks. Databricks Os trabalhos oferecem suporte a vários tipos de carga de trabalho, incluindo Notebook, scripts, pipeline Delta Live Tables, consultas Databricks SQL e dbt projetos. Os artigos a seguir orientam o senhor a usar o recurso e as opções do Databricks Jobs para implementar seu pipeline de dados.
Dica
O senhor pode usar Databricks ativo Bundles para definir e gerenciar programaticamente seu trabalho. Veja o que são Databricks ativo Bundles? e Desenvolva um trabalho em Databricks usando Databricks ativo Bundles.
Use transformações dbt em um job
Use o tipo de tarefa dbt
se você estiver fazendo transformação de dados com um projeto principal de dbt e quiser integrar esse projeto em um job do Databricks, ou se quiser criar novas transformações de dbt e executar essas transformações em um job. Consulte Usar transformações dbt em uma tarefa do Databricks.
Use um pacote Python em um job
Python wheel são uma forma padrão de empacotar e distribuir os arquivos necessários para executar um aplicativo Python. O senhor pode criar facilmente um trabalho que use o pacote de código Python como um arquivo Python wheel com o tipo de tarefa Python wheel
. Consulte Usar um arquivo Python wheel em um trabalho Databricks .
Usar código empacotado em um JAR
Bibliotecas e aplicativos implementados em uma linguagem JVM, como Java e Scala, são comumente empacotados em um arquivo Java archive (JAR). O Databricks Jobs oferece suporte ao código empacotado em um JAR com o tipo de tarefa JAR
. Consulte Usar um JAR em um job do Databricks.
Organize seus jobs com o Apache Airflow
A Databricks recomenda usar o Databricks Jobs para orquestrar seus fluxos de trabalho. No entanto, o Apache Airflow é comumente utilizado como um sistema de orquestração de fluxo de trabalho e oferece compatibilidade nativa para jobs do Databricks. Enquanto o Databricks Jobs oferece uma interface de usuário visual para criar seus fluxos de trabalho, o Airflow usa arquivos Python para definir e implementar seus pipelines de dados. Para obter um exemplo de criação e execução de um job com o Airflow, consulte Orquestrar jobs do Databricks com o Apache Airflow.