conceitos de transmissão estruturada

Este artigo fornece uma introdução à transmissão estruturada em Databricks.

O que é transmissão estruturada?

Apache Spark A transmissão estruturada é um mecanismo de processamento real near tempo que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente único usando o conhecido Spark APIs. A transmissão estruturada permite que o senhor expresse a computação em dados de transmissão da mesma forma que expressa a computação de lotes em dados estáticos. O mecanismo de transmissão estruturada executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de transmissão chegam.

Ler de um fluxo de dados

O senhor pode usar a transmissão estruturada para ingerir dados de forma incremental a partir da fonte de dados suportada. As fontes de dados comuns incluem o seguinte:

Cada fonte de dados oferece várias opções para especificar como carregar lotes de dados. Durante a configuração do leitor, talvez seja necessário configurar opções para fazer o seguinte:

  • Especifique a fonte de dados ou o formato (por exemplo, tipo de arquivo, delimitadores e esquema).

  • Configure o acesso aos sistemas de origem (por exemplo, configurações de porta e credenciais).

  • Especificar onde começar em uma transmissão (por exemplo, Kafka offsets ou ler todos os arquivos existentes).

  • Controlar a quantidade de dados processados em cada lote (por exemplo, o máximo de offsets, arquivos ou bytes por lote). Consulte Configurar o tamanho dos lotes de transmissão estruturada em Databricks.

Gravar em um coletor de dados

Um coletor de dados é o alvo de uma operação de gravação em transmissão. Os coletores comuns usados nas cargas de trabalho de transmissão do Databricks incluem o seguinte:

  • Delta Lake

  • Barramentos e filas de mensagens

  • Bancos de dados de valor chave

Assim como a fonte de dados, a maioria dos data sinks oferece várias opções para controlar como os dados são gravados no sistema de destino. Durante a configuração do gravador, você especifica as seguintes opções: