Carga e transformação de dados com Delta Live Tables
Os artigos desta seção fornecem padrões comuns, recomendações e exemplos de ingestão de dados e transformações no pipeline Delta Live Tables. Ao ingerir dados de origem para criar o conjunto de dados inicial em um pipeline, esses conjuntos de dados iniciais são comumente chamados de tabelas de bronze e geralmente realizam transformações simples. Por outro lado, as tabelas finais em um pipeline, comumente chamadas de tabelas de ouro, geralmente exigem agregações complicadas ou leitura de fontes que são alvos de uma APPLY CHANGES INTO
operação.
Carregar dados
O senhor pode carregar dados de qualquer fonte de dados suportada por Apache Spark em Databricks usando Delta Live Tables. Para obter exemplos de padrões para carregar dados de diferentes fontes, incluindo o armazenamento de objetos cloud, barramentos de mensagens como Kafka e sistemas externos como PostgreSQL, consulte Carregar dados com Delta Live Tables. Esses exemplos recorrem a recomendações como o uso de tabelas de transmissão com Auto Loader em Delta Live Tables para uma experiência de ingestão otimizada.
Fluxos de dados
Em Delta Live Tables, um fluxo é uma consulta de transmissão que processa os dados de origem de forma incremental para atualizar uma tabela de transmissão de destino. Muitas consultas de transmissão necessárias para implementar um Delta Live Tables pipeline criam um fluxo implícito como parte da definição da consulta. O Delta Live Tables também suporta a declaração explícita de fluxos quando é necessário um processamento mais especializado. Para saber mais sobre os fluxos do site Delta Live Tables e ver exemplos de uso de fluxos para implementar a tarefa de processamento de dados, consulte Carregar e processar dados de forma incremental com os fluxos do site Delta Live Tables .
captura de dados de alterações (CDC) (CDC)
A captura de dados de alterações (CDC) (CDC) é um padrão de integração de dados que captura as alterações feitas nos dados em um sistema de origem, como inserções, atualizações e exclusões. O CDC é comumente usado para replicar com eficiência tabelas de um sistema de origem para o Databricks. O Delta Live Tables simplifica o CDC com a API APPLY CHANGES
. Ao tratar automaticamente os registros fora de sequência, a API APPLY CHANGES
API em Delta Live Tables garante o processamento correto dos registros CDC e elimina a necessidade de desenvolver uma lógica complexa para tratar registros fora de sequência. Consulte O que é captura de dados de alterações (CDC) (CDC )? e a opção APPLY CHANGES APIs: Simplificar a captura de dados de alterações (CDC) com Delta Live Tables.
transformação de dados
Com o site Delta Live Tables, é possível declarar transformações no conjunto de dados e especificar como os registros são processados por meio da lógica de consulta. Para obter exemplos de padrões de transformações comuns ao criar o pipeline Delta Live Tables, incluindo o uso de tabelas de transmissão, visualização materializada, união estática de transmissão e modelos MLflow no pipeline, consulte transformação de dados com Delta Live Tables.
Otimizar o processamento de estado em Delta Live Tables com marcas d'água
Para gerenciar efetivamente os dados mantidos no estado, o senhor pode usar marcas d'água ao executar o processamento de transmissão com estado em Delta Live Tables, incluindo agregações, junções e deduplicação. No processamento de transmissão, uma marca d'água é um Apache Spark recurso que pode definir um limite baseado em tempo para o processamento de dados ao realizar operações com estado. Os dados que chegam são processados até que o limite seja atingido e, nesse momento, a janela de tempo definida pelo limite é fechada. As marcas d'água podem ser usadas para evitar problemas durante o processamento de consultas, principalmente ao processar um conjunto de dados maior ou um processamento de longa duração.
Para obter exemplos e recomendações, consulte Otimizar o processamento com estado em Delta Live Tables com marcas d'água.