conceitos de transmissão estruturada

Este artigo fornece uma introdução à transmissão estruturada em Databricks.

O que é transmissão estruturada?

Apache Spark A transmissão estruturada é um mecanismo de processamento real near tempo que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente único usando o conhecido Spark APIs. A transmissão estruturada permite que o senhor expresse a computação em dados de transmissão da mesma forma que expressa a computação de lotes em dados estáticos. O mecanismo de transmissão estruturada executa o cálculo de forma incremental e atualiza continuamente o resultado à medida que os dados de transmissão chegam.

Ler de um fluxo de dados

O senhor pode usar a transmissão estruturada para ingerir dados de forma incremental a partir da fonte de dados suportada. As fontes de dados comuns incluem o seguinte:

Arquivos de dados no armazenamento de objetos cloud. Consulte O que é o Auto Loader?
Ônibus e filas de mensagens. Consulte Configurar transmissão fonte de dados.
Delta Lake. Consulte Delta para ler e gravar na tabela de transmissão.

Cada fonte de dados oferece várias opções para especificar como carregar lotes de dados. Durante a configuração do leitor, talvez seja necessário configurar opções para fazer o seguinte:

Especifique a fonte de dados ou o formato (por exemplo, tipo de arquivo, delimitadores e esquema).
Configure o acesso aos sistemas de origem (por exemplo, configurações de porta e credenciais).
Especificar onde começar em uma transmissão (por exemplo, Kafka offsets ou ler todos os arquivos existentes).
Controlar a quantidade de dados processados em cada lote (por exemplo, o máximo de offsets, arquivos ou bytes por lote). Consulte Configurar o tamanho dos lotes de transmissão estruturada em Databricks.

Gravar em um coletor de dados

Um coletor de dados é o alvo de uma operação de gravação em transmissão. Os coletores comuns usados nas cargas de trabalho de transmissão do Databricks incluem o seguinte:

Delta Lake
Barramentos e filas de mensagens
Bancos de dados de valor chave

Assim como a fonte de dados, a maioria dos data sinks oferece várias opções para controlar como os dados são gravados no sistema de destino. Durante a configuração do gravador, você especifica as seguintes opções:

Modo de saída (anexar por default). Consulte Selecionar um modo de saída para transmissão estruturada.
A localização do ponto de verificação (necessária para cada escritor). Veja os pontos de controle da transmissão estruturada.
Intervalos de gatilho. Consulte Configurar intervalos de acionamento da transmissão estruturada.
Opções que especificam o coletor de dados ou o formato (por exemplo, tipo de arquivo, delimitadores e esquema).
Opções que configuram o acesso aos sistemas de destino (por exemplo, configurações de porta e credenciais).