Transmissão no Databricks
Você pode usar o Databricks para ingestão, processamento, aprendizado de máquina e IA de dados quase em tempo real para transmissão de dados.
Databricks oferece várias otimizações para transmissão e processamento incremental. Para a maioria das transmissões ou processamento de dados incrementais ou ETL tarefa, Databricks recomenda Delta Live Tables. Veja o que é Delta Live Tables?
A maioria das cargas de trabalho incrementais e de transmissão em Databricks é alimentada por transmissão estruturada, incluindo Delta Live Tables e Auto Loader. Consulte O que é o Auto Loader?
Delta Lake e transmissão estructurada têm forte integração para potencializar o processamento incremental no Databricks lakehouse. Veja tabela Delta transmissão de leituras e escritas.
Para saber mais sobre como construir soluções de transmissão na plataforma Databricks, consulte a página do produto transmissão de dados.
Databricks possui recurso específico para trabalhar com campos de dados semiestruturados contidos em Avro, buffers de protocolo e payloads de dados JSON. Para saber mais, consulte:
O que é transmissão estruturada?
Apache Spark A transmissão estruturada é um mecanismo de processamento real near tempo que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente único usando o conhecido Spark APIs. A transmissão estruturada permite que o senhor expresse a computação em dados de transmissão da mesma forma que expressa a computação de lotes em dados estáticos. O mecanismo de transmissão estruturada executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de transmissão chegam.
Se você não conhece o Transmissão Estruturada, consulte Executar sua primeira carga de trabalho de Transmissão Estruturada.
Para informações sobre o uso do transmissão estruturada com o Unity Catalog, consulte Uso do Unity Catalog com transmissão estruturada.
Quais fontes e coletores de transmissão são compatíveis com o Databricks?
A Databricks recomenda o uso do Auto Loader para ingerir os tipos de arquivos compatíveis do armazenamento de objetos na nuvem no Delta Lake. Para pipelines de ETL, a Databricks recomenda o uso do Delta Live Tables (que usa tabelas Delta e Transmissão estruturada). Você também pode configurar cargas de trabalho de ETL incrementais fazendo transmissão de e para tabelas do Delta Lake.
Além do Delta Lake e do Auto Loader, a transmissão estruturada pode se conectar a serviços de mensagens como o Apache Kafka.
Você também pode usar o foreachBatch para gravar em coletores de dados arbitrários.
Recursos adicionais
Apache Spark oferece um Guia de programação de transmissão estruturada que contém mais informações sobre transmissão estruturada.
Para obter informações de referência sobre transmissão estruturada, o Databricks recomenda as seguintes referências do Apache Spark API: