Tutorial: Implementar o ETL fluxo de trabalho com o Delta Live Tables

Delta Live Tables oferece uma abordagem declarativa simples para criar ETL e machine learning pipeline em lotes ou dados de transmissão, ao mesmo tempo em que automatiza complexidades operacionais, como gerenciamento de infraestrutura, orquestração de tarefas, tratamento e recuperação de erros e otimização de desempenho. O senhor pode usar o tutorial a seguir para começar a usar o site Delta Live Tables, realizar tarefas comuns de transformação de dados e implementar fluxos de trabalho de processamento de dados mais avançados.

Crie seu primeiro pipeline com o Delta Live Tables

Para ajudá-lo a aprender sobre o recurso da estrutura Delta Live Tables e como implementar o pipeline, este tutorial o orienta na criação e execução do seu primeiro pipeline. O tutorial inclui um exemplo de ponta a ponta de um pipeline que ingere dados, limpa e prepara os dados e realiza transformações nos dados preparados. Consulte tutorial: execução seu primeiro Delta Live Tables pipeline .

Criar programaticamente várias tabelas com Python

Observação

Os padrões mostrados neste artigo não podem ser facilmente concluídos apenas com o site SQL. Como o conjunto de dados Python pode ser definido em relação a qualquer consulta que retorne um DataFrame, o senhor pode usar spark.sql() conforme necessário para usar a sintaxe SQL nas funções Python.

É possível usar as funções definidas pelo usuário (UDFs) do Python em suas consultas SQL, mas é preciso definir essas UDFs em arquivos Python no mesmo pipeline antes de chamá-las nos arquivos de origem SQL. Consulte Funções escalares definidas pelo usuário - Python.

Muitos fluxos de trabalho exigem a implementação de vários fluxos de processamento de dados ou definições do site dataset que são idênticas ou diferem em apenas alguns parâmetros. Essa redundância pode resultar em um pipeline propenso a erros e de difícil manutenção. Para resolver essa redundância, o senhor pode usar um padrão de metaprogramação com o Python. Para ver um exemplo que demonstra como usar esse padrão para chamar uma função invocada várias vezes para criar tabelas diferentes, consulte Criar várias tabelas programaticamente.