Transmissão no Databricks

Você pode usar o Databricks para ingestão, processamento, aprendizado de máquina e IA de dados quase em tempo real para transmissão de dados.

Databricks oferece várias otimizações para transmissão e processamento incremental, incluindo o seguinte:

O Delta Live Tables oferece sintaxe declarativa para processamento incremental. Veja o que é Delta Live Tables?
Auto Loader simplifica a ingestão incremental do armazenamento de objetos do site cloud. Consulte O que é o Auto Loader?
Unity Catalog adiciona governança de dados às cargas de trabalho de transmissão. Consulte Uso do site Unity Catalog com transmissão estruturada.

O Delta Lake fornece a camada de armazenamento para essas integrações. Consulte Delta para ler e gravar na tabela de transmissão.

Tutorial
Aprenda os conceitos básicos do processamento incremental e próximo do tempo real com Transmissão Estruturada no Databricks.
Conceitos
Aprenda os principais conceitos para configurar cargas de trabalho reais incrementais e near tempo com transmissão estruturada.
Transmissão com estado
O gerenciamento das informações de estado intermediário das consultas de transmissão estruturada com estado pode ajudar a evitar latência inesperada e problemas de produção.
Considerações de produção
Este artigo contém recomendações para configurar cargas de trabalho de processamento incremental de produção com transmissão estruturada em Databricks para atender aos requisitos de latência e custo para aplicativos de tempo real ou de lotes.
Monitorar transmissão
Saiba como monitorar os aplicativos de transmissão estruturada em Databricks.
Integração do Unity Catalog
Saiba como utilizar o Unity Catalog com a Transmissão Estruturada no Databricks.
Transmissão com Delta
Aprenda a usar tabelas Delta Lake como fontes e coletores de transmissão.
Exemplos
Veja exemplos de uso de Spark transmissão estruturada com Cassandra, Azure Synapse Analytics, Python Notebook e Scala Notebook em Databricks.

Databricks possui recurso específico para trabalhar com campos de dados semiestruturados contidos em Avro, buffers de protocolo e payloads de dados JSON. Para saber mais, consulte:

Recursos adicionais

Apache Spark oferece um Guia de programação de transmissão estruturada que contém mais informações sobre transmissão estruturada.

Para obter informações de referência sobre transmissão estruturada, o Databricks recomenda as seguintes referências do Apache Spark API: