Transmissão no Databricks

Você pode usar o Databricks para ingestão, processamento, aprendizado de máquina e IA de dados quase em tempo real para transmissão de dados.

O Databricks oferece inúmeras otimizações para transmissão e processamento incremental. Para a maioria das tarefas de transmissão ou processamento incremental de dados ou ETL, a Databricks recomenda Delta Live Tables. Veja o que é Delta Live Tables?

A maioria das cargas de trabalho incrementais e de transmissão no Databricks é alimentada por Structured transmissão, incluindo Delta Live Tables e Auto Loader. Consulte O que é o Auto Loader?

Delta Lake e transmissão estructurada têm forte integração para potencializar o processamento incremental no Databricks lakehouse. Veja tabela Delta transmissão de leituras e escritas.

Para saber mais sobre como construir soluções de transmissão na plataforma Databricks, consulte a página do produto transmissão de dados.

Databricks possui recurso específico para trabalhar com campos de dados semiestruturados contidos em Avro, buffers de protocolo e payloads de dados JSON. Para saber mais, consulte:

O que é transmissão estruturada?

A Transmissão estruturada do Apache Spark é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento exactly-once com APIs conhecidas do Spark. A transmissão estruturada permite que você aplique computação em dados de transmissão da mesma forma que aplica a computação em lote em dados estáticos. O mecanismo de transmissão estruturada executa a computação de forma incremental e atualiza continuamente o resultado à medida que os dados de transmissão chegam.

Se você não conhece o Transmissão Estruturada, consulte Executar sua primeira carga de trabalho de Transmissão Estruturada.

Para informações sobre o uso do transmissão estruturada com o Unity Catalog, consulte Uso do Unity Catalog com transmissão estruturada.

Quais fontes e coletores de transmissão são compatíveis com o Databricks?

A Databricks recomenda o uso do Auto Loader para ingerir os tipos de arquivos compatíveis do armazenamento de objetos na nuvem no Delta Lake. Para pipelines de ETL, a Databricks recomenda o uso do Delta Live Tables (que usa tabelas Delta e Transmissão estruturada). Você também pode configurar cargas de trabalho de ETL incrementais fazendo transmissão de e para tabelas do Delta Lake.

Além do Delta Lake e do Auto Loader, a transmissão estruturada pode se conectar a serviços de mensagens como o Apache Kafka.

Você também pode usar o foreachBatch para gravar em coletores de dados arbitrários.

Recursos adicionais

Apache Spark oferece um Guia de programação de transmissão estruturada que contém mais informações sobre transmissão estruturada.

Para obter informações de referência sobre transmissão estruturada, o Databricks recomenda as seguintes referências do Apache Spark API: