Opções do Auto Loader
As opções de configuração específicas para a origem do cloudFiles
são prefixadas com cloudFiles
de forma que estejam em um espaço de nome separado de outras opções de origem da transmissão estruturada.
Opções comuns do Auto Loader
Você pode configurar as seguintes opções para listagem de diretórios ou modo de notificação de arquivos.
Opção |
---|
Tipo: Se permitir que alterações no arquivo do diretório de entrada substituam os dados existentes. Existem algumas advertências sobre a ativação desta configuração. Consulte as Perguntas frequentesAuto Loader para obter detalhes. Valor default: |
Tipo: O Auto Loader pode acionar preenchimentos assíncronos em um determinado intervalo, por exemplo Valor default: Nenhum |
Tipo: O formato do arquivo de dados no caminho de origem. Os valores permitidos incluem:
Valor padrão: Nenhum (opção obrigatória) |
Tipo: Se os arquivos existentes devem ser incluídos no caminho de entrada do processamento da transmissão ou se devem ser processados somente os novos arquivos que chegarem após a configuração inicial. Essa opção é avaliada somente quando você inicia uma transmissão pela primeira vez. Alterar esta opção após reiniciar a transmissão não tem efeito. Valor default: |
Tipo: Se deve inferir os tipos exatos de coluna ao aproveitar a inferência de esquema. Por default, as colunas são inferidas como strings ao inferir datasets JSON e CSV. Consulte inferência de esquema para obter mais detalhes. Valor default: |
Tipo: O número máximo de novos bytes a serem processados em cada gatilho. Você pode especificar uma string de bytes Valor default: Nenhum |
Tipo: Por quanto tempo um evento de arquivo é rastreado para fins de desduplicação. Databricks não recomenda ajustar esse parâmetro, a menos que você esteja ingerindo dados na ordem de milhões de arquivos por hora. Consulte a seção Retenção de eventos para obter mais detalhes. Ajustar Valor default: Nenhum |
Tipo: O número máximo de novos arquivos a serem processados em cada gatilho. Quando usado junto com Valor padrão: 1000 |
Tipo: Uma lista separada por vírgulas de colunas de partição no estilo Hive que você gostaria de inferir da estrutura de diretórios dos arquivos. As colunas de partição no estilo Hive são valores- keypar combinados por um sinal de igualdade como
Especificar Valor default: Nenhum |
Tipo: O modo de evolução do esquema à medida que novas colunas são descobertas nos dados. Por default, as colunas são inferidas como strings ao inferir datasets JSON. Consulte evolução do esquema para obter mais detalhes. Valor padrão: |
Tipo: Informações do esquema que você fornece ao Auto Loader durante a inferência do esquema. Consulte as dicas de esquema para obter mais detalhes. Valor default: Nenhum |
Tipo: O local para armazenar o esquema inferido e as alterações subsequentes. Consulte inferência de esquema para obter mais detalhes. Valor padrão: Nenhum (necessário ao inferir o esquema) |
Tipo: Se o senhor deve usar um globber estrito que corresponda ao comportamento de globbing de default de outras fontes de arquivos em Apache Spark. Consulte Padrões comuns de carregamento de dados para obter mais detalhes. Disponível em Databricks Runtime 12.2 LTS e acima. Valor default: |
Tipo: Se deve validar as opções do Auto Loader e retornar um erro para opções desconhecidas ou inconsistentes. Valor default: |
Opções de listagem de diretórios
As seguintes opções são relevantes para o modo de listagem de diretórios.
Opção |
---|
Tipo: Este recurso foi descontinuado. A Databricks recomenda usar o modo de notificação de arquivo em vez de Se deve ser usada a listagem incremental em vez da listagem completa no modo de listagem de diretórios. Por default, o Auto Loader faz o melhor esforço para detectar automaticamente se um determinado diretório é aplicável à listagem incremental. Você pode usar explicitamente a listagem incremental ou usar a listagem completa do diretório definindo-a como A ativação incorreta da listagem incremental em um diretório ordenado não lexicalmente impede que o Auto Loader descubra novos arquivos. Funciona com o Azure Data Lake Storage Gen2 ( Disponível no Databricks Runtime 9.1 LTS e acima. Valor default: Valores disponíveis: |
Opções de notificação de arquivo
As seguintes opções são relevantes para o modo de notificação de arquivo.
Opção |
---|
Tipo: Número de segmentos a serem usados ao buscar mensagens do serviço de enfileiramento. Valor padrão: 1 |
Tipo: uma string JSON Obrigatório somente se você especificar um Valor default: Nenhum |
Tipo: Uma série de pares de tags de valor chave para ajudar a associar e identificar recursos relacionados, por exemplo:
Para obter mais informações sobre a AWS, consulte Tags de alocação de custos do Amazon SQS e Configurando tags para um tópico do Amazon SNS. (1) Para mais informações sobre o Azure, consulte Filas de Nomeação e Metadados e a cobertura de Para obter mais informações sobre o GCP, consulte Relatórios de uso com rótulos. (1) Valor default: Nenhum |
Tipo: Se você deve usar o modo de notificação de arquivo para determinar quando há novos arquivos. Se Valor default: |
(1) O Auto Loader adiciona os seguintes pares de tags de chave-valor por padrão com base no melhor esforço:
vendor
:Databricks
path
: O local de onde os dados são carregados. Indisponível no GCP devido a limitações de rotulagem.checkpointLocation
: A localização do ponto de verificação do fluxo. Indisponível no GCP devido a limitações de rotulagem.streamId
: um identificador globalmente exclusivo para a transmissão.
Esses nomes de keys são reservados e você não pode substituir seus valores.
Opções de formato de arquivo
Com o Auto Loader, você pode ingerir arquivos JSON
, CSV
, PARQUET
, AVRO
, TEXT
, BINARYFILE
e ORC
.
Opções genéricas
As seguintes opções se aplicam a todos os formatos de arquivo.
Opção |
---|
Tipo: Se deve ignorar arquivos corrompidos. Se for verdadeiro, o trabalho Spark continuará a ser executado ao encontrar arquivos corrompidos e o conteúdo que foi lido ainda será retornado. Observável como Valor default: |
Tipo: Se deve ignorar os arquivos ausentes. Se for verdadeiro, o trabalho Spark continuará a ser executado quando encontrar arquivos ausentes e o conteúdo que foi lido ainda será retornado. Disponível em Databricks Runtime 11.3 LTS e acima. Valor padrão: |
Tipo: Um carimbo de data e hora opcional para ingerir arquivos com um carimbo de data e hora de modificação posterior ao carimbo fornecido. Valor default: Nenhum |
Tipo: Um carimbo de data e hora opcional para ingerir arquivos com um carimbo de data e hora de modificação antes do carimbo de data/hora fornecido. Valor default: Nenhum |
Tipo: Um padrão de glob potencial a ser fornecido para a escolha de arquivos. Equivalente a Valor default: Nenhum |
Tipo: Se deve ignorar a inferência de partição durante a inferência de esquema. Isso não afeta quais arquivos são carregados. Valor default: |
JSON
opções
Opção |
---|
Tipo: Se deve permitir que barras invertidas () sejam usadas para escapar qualquer caractere que a suceda.Se não estiver habilitado, somente caracteres que são explicitamente listados pela especificação JSON podem ser escapados. Valor default: |
Tipo: Se deve permitir ou não o uso de comentários no estilo Java, C e C++ (variedades Valor default: |
Tipo: Se o conjunto de tokens não é um número ( Valor default: |
Tipo: Se deve-se permitir que números inteiros comecem com zeros adicionais (ignoráveis) (por exemplo, Valor default: |
Tipo: Se deve ser permitido o uso de aspas simples (apóstrofo, caractere Valor default: |
Tipo: Permitir ou não que as strings JSON contenham caracteres de controle sem escape (caracteres ASCII com valor menor que a 32, incluindo caracteres de tabulação e de avanço de linha). Valor default: |
Tipo: Se deve permitir o uso de nomes de campo sem aspas (que são permitidos pelo JavaScript, mas não pela especificação JSON). Valor default: |
Tipo: O caminho para armazenar arquivos que registram informações sobre registros JSON inválidos. Valor default: Nenhum |
Tipo: A coluna para armazenar registros que estão malformados e não podem ser analisados. Se o Valor default: |
Tipo: O formato para analisar cadeias de caracteres de data. Valor default: |
Tipo: Se deve ignorar colunas de todos os valores nulos ou matrizes e estruturas vazias durante a inferência do esquema. Valor default: |
Tipo: O nome da codificação dos arquivos JSON. Consulte Valor default: |
Tipo: Se deve tentar inferir strings de carimbo de data/hora como Valor default: |
Tipo: Uma string entre dois registros JSON consecutivos. Valor padrão: Nenhum, que cobre |
Tipo: Um identificador Valor default: |
Tipo: Modo analisador para trabalhar com registros malformados. Um de Valor default: |
Tipo: Se os registros JSON abrangem múltiplas linhas. Valor default: |
Tipo: Tenta inferir strings como Valor default: |
Tipo: Se inferir tipos primitivos como números e booleanos como Valor default: |
Tipo: Especifica o comportamento de diferenciação de maiúsculas e minúsculas quando Valor default: |
Tipo: Se deve coletar todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados ou incompatibilidade de esquema (incluindo capitalização de coluna) para uma coluna separada. Esta coluna é incluída por default ao usar o Auto Loader. Para obter mais detalhes, consulte O que é a coluna de dados resgatados?. Valor default: Nenhum |
Tipo: O formato para analisar cadeias de caracteres de carimbo de data/hora. Valor default: |
Tipo: O Valor default: Nenhum |
CSV
opções
Opção |
---|
Tipo: O caminho para armazenar arquivos para registrar as informações sobre registros CSV ruins. Valor default: Nenhum |
Tipo: O caractere usado para escapar do caractere usado para escapar das citações. Por exemplo, para o seguinte registro:
Valor default: |
Observação Compatível com Auto Loader. Não compatível com Tipo: A coluna para armazenar registros que estão malformados e não podem ser analisados. Se o Valor default: |
Tipo: Define o caractere que representa um comentário de linha quando encontrado no início de uma linha de texto. Use Valor default: |
Tipo: O formato para analisar cadeias de caracteres de data. Valor default: |
Tipo: Representação de string de um valor vazio. Valor default: |
Tipo: O nome da codificação dos arquivos CSV. Consulte Valor default: |
Tipo: Se deve aplicar à força o esquema especificado ou inferido aos arquivos CSV. Se a opção estiver habilitada, os cabeçalhos de arquivos CSV serão ignorados. Essa opção é ignorada por padrão ao usar o Auto Loader para resgatar dados e permitir a evolução do esquema. Valor default: |
Tipo: O caractere de escape a ser usado ao analisar os dados. Valor default: |
Tipo: Se os arquivos CSV contêm um cabeçalho. O Auto Loader pressupõe que os arquivos tenham cabeçalhos ao inferir o esquema. Valor default: |
Tipo: Se deve ignorar os principais espaços em branco para cada valor analisado. Valor default: |
Tipo: Se devem ser ignorados os espaços em branco à direita para cada valor analisado. Valor default: |
Tipo: Se deve inferir os tipos de dados dos registros CSV analisados ou assumir que todas as colunas são de Valor default: |
Tipo: Uma string entre dois registros CSV consecutivos. Valor padrão: Nenhum, que cobre |
Tipo: Um identificador Valor default: |
Tipo: Número máximo de caracteres esperado de um valor para analisar. Pode ser usado para evitar erros de memória. O padrão é Valor default: |
Tipo: O limite rígido de quantas colunas um registro pode ter. Valor default: |
Tipo: Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Habilitado por padrão para o Auto Loader ao inferir o esquema. Valor default: |
Tipo: Modo de analisador para trabalhar com registros malformados. Um dos Valor default: |
Tipo: Se os registros CSV abrangem várias linhas. Valor default: |
Tipo: A representação de string de um valor não numérico ao analisar colunas Valor default: |
Tipo: A representação de string do infinito negativo ao analisar colunas Valor default: |
Tipo: Representação de string de um valor nulo. Valor default: |
Tipo: Durante a leitura de arquivos, verifique se as colunas declaradas no cabeçalho devem ser alinhadas com o esquema com diferenciação de maiúsculas e minúsculas. Isso é Valor default: |
Tipo: A representação de string do infinito positivo ao analisar colunas Valor default: |
Tipo: Tenta inferir strings como datas em vez de carimbo de data/hora quando possível. Você também deve usar a inferência de esquema, habilitando Valor default: |
Tipo: O caractere usado para escapar de valores onde o delimitador de campo faz parte do valor. Valor default: |
Tipo: Especifica o comportamento de diferenciação de maiúsculas e minúsculas quando Valor default: |
Tipo: Se deve coletar todos os dados que não podem ser analisados devido a: uma incompatibilidade de tipo de dados e incompatibilidade de esquema (incluindo capitalização de coluna) para uma coluna separada. Esta coluna é incluída por default ao usar o Auto Loader. Para obter mais detalhes, consulte O que é a coluna de dados resgatados?. Valor default: Nenhum |
Tipo: A string separadora entre colunas. Valor default: |
Tipo: O número de linhas do início do arquivo CSV que devem ser ignoradas (incluindo linhas comentadas e vazias). Se Valor default: |
Tipo: O formato para analisar cadeias de caracteres de carimbo de data/hora. Valor default: |
Tipo: O Valor default: Nenhum |
Tipo: A estratégia para lidar com cotações sem escape. Opções permitidas:
Valor default: |
XML
opções
Opção |
Descrição |
Escopo |
---|---|---|
|
As tags de linha dos arquivos XML a serem tratados como uma linha. No exemplo XML |
Ler |
|
Define uma fração de linhas usadas para inferência de esquema. As funções XML integradas ignoram essa opção. default: |
Ler |
|
Se o senhor deve excluir atributos em elementos. default: |
Ler |
|
Mode para lidar com registros corrompidos durante a análise.
|
Ler |
|
Se |
Ler |
|
Permite renomear o novo campo que contém uma cadeia de caracteres malformada criada pelo modo |
Ler |
|
O prefixo dos atributos para diferenciar os atributos dos elementos. Esse será o prefixo dos nomes de campo. default é |
leitura, gravação |
|
As tags usadas para os dados de caracteres dentro de elementos que também têm elementos de atributo(s) ou elemento(s) filho(s). O usuário pode especificar o campo |
leitura, gravação |
|
Para leitura, decodifica os arquivos XML de acordo com o tipo de codificação fornecido. Para gravação, especifica a codificação (charset) dos arquivos XML salvos. As funções XML integradas ignoram essa opção. default: |
leitura, gravação |
|
Define se os espaços em branco ao redor dos valores que estão sendo lidos devem ser ignorados. default: |
Ler |
|
Caminho para um arquivo XSD opcional que é usado para validar o XML de cada linha individualmente. As linhas que falham na validação são tratadas como erros de análise, conforme descrito acima. O XSD não afeta de outra forma o esquema fornecido ou inferido. |
Ler |
|
Se |
Ler |
|
Cadeias de formato de carimbo de data/hora personalizadas que seguem o formato padrão datetime. Isso se aplica ao tipo |
leitura, gravação |
|
Strings de formato personalizado para carimbo de data/hora sem fuso horário que segue o formato padrão datetime. Isso se aplica ao tipo TimestampNTZType. default:
|
leitura, gravação |
|
Cadeias de formato de data personalizadas que seguem o formato padrão datetime. Isso se aplica ao tipo de data. default: |
leitura, gravação |
|
Define um locale como uma etiqueta de idioma no formato IETF BCP 47. Por exemplo, |
Ler |
|
Tags raiz dos arquivos XML. Por exemplo, em |
Gravar |
|
Conteúdo da declaração XML a ser gravada no início de cada arquivo XML de saída, antes do |
Gravar |
|
Nome do elemento XML que envolve cada elemento de uma coluna com valor de matriz durante a gravação. default: |
Gravar |
|
Define a representação de strings de um valor nulo. default: cadeias de caracteres |
leitura, gravação |
|
Código de compactação a ser usado ao salvar no arquivo. Esse pode ser um dos nomes abreviados conhecidos que não diferenciam maiúsculas de minúsculas ( |
Gravar |
|
Se verdadeiro, lança um erro na falha de validação do nome do elemento XML. Por exemplo, os nomes de campos SQL podem ter espaços, mas os nomes de elementos XML não podem. default: |
Gravar |
|
Especifica o comportamento de sensibilidade a maiúsculas e minúsculas quando rescuedDataColumn está ativado. Se for verdadeiro, recupera as colunas de dados cujos nomes diferem em maiúsculas e minúsculas do esquema; caso contrário, lê os dados sem distinção entre maiúsculas e minúsculas. default: |
Ler |
|
Se o senhor deve coletar todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados e de esquema (incluindo o revestimento da coluna) em uma coluna separada. Essa coluna é incluída pelo site default ao usar o Auto Loader. Para obter mais detalhes, consulte O que é a coluna de dados resgatada? default: Nenhum. |
Ler |
PARQUET
opções
Opção |
---|
Tipo: Controla o rebase dos valores de DATA e TIMESTAMP entre calendários gregorianos julianos e prolóticos. Valores permitidos: Valor default: |
Tipo: Controla a rebase dos valores de carimbo de data/hora INT96 entre os calendários Juliano e Gregoriano Proléptico. Valores permitidos: Valor default: |
Tipo: Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Valor default: |
Tipo: Especifica o comportamento de diferenciação de maiúsculas e minúsculas quando Valor default: |
Tipo: Se deve coletar todos os dados que não podem ser analisados devido a: uma incompatibilidade de tipo de dados e incompatibilidade de esquema (incluindo capitalização de coluna) para uma coluna separada. Esta coluna é incluída por default ao usar o Auto Loader. Para obter mais detalhes, consulte O que é a coluna de dados resgatados?. Valor default: Nenhum |
AVRO
opções
Opção |
---|
Tipo: Esquema opcional fornecido por um usuário no formato Avro. Ao ler o Avro, essa opção pode ser definida como um esquema evoluído, que é compatível, mas diferente do esquema real do Avro. O esquema de desserialização será consistente com o esquema evoluído. Por exemplo, se você definir um esquema evoluído contendo uma coluna adicional com um valor padrão, o resultado da leitura também conterá a nova coluna. Valor default: Nenhum |
Tipo: Controla o rebase dos valores de DATA e TIMESTAMP entre calendários gregorianos julianos e prolóticos. Valores permitidos: Valor default: |
Tipo: Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Valor default: |
Tipo: Especifica o comportamento de diferenciação de maiúsculas e minúsculas quando Valor default: |
Tipo: Se deve coletar todos os dados que não podem ser analisados devido a: uma incompatibilidade de tipo de dados e incompatibilidade de esquema (incluindo capitalização de coluna) para uma coluna separada. Esta coluna é incluída por default ao usar o Auto Loader. Para obter mais detalhes, consulte O que é a coluna de dados resgatados?. Valor default: Nenhum |
BINARYFILE
opções
Arquivos binários não têm opções de configuração adicionais.
TEXT
opções
Opção |
---|
Tipo: O nome da codificação dos arquivos TEXT. Consulte Valor default: |
Tipo: Uma string entre dois registros TEXT consecutivos. Valor padrão: Nenhum, que cobre |
Tipo: Se deve ler um arquivo como um único registro. Valor default: |
ORC
opções
Opção |
---|
Tipo: Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Valor default: |
Opções específicas de nuvem
O Auto Loader oferece uma série de opções para configurar a infraestrutura de nuvem.
Opções específicas do AWS
Forneça a seguinte opção somente se você escolher cloudFiles.useNotifications
= true
e desejar que o Auto Loader configure os serviços de notificação para você:
Opção |
---|
Tipo: A região onde o bucket do S3 de origem reside e onde os serviços do AWS SNS e do SQS serão criados. default valor: A região da instância EC2. |
Forneça a seguinte opção apenas se escolher cloudFiles.useNotifications
= true
e pretender que o Auto Loader utilize uma fila que já configurou:
Opção |
---|
Tipo: O URL da fila SQS. Se fornecido, o Auto Loader consome diretamente os eventos dessa fila em vez de configurar seus próprios serviços AWS SNS e SQS. Valor default: Nenhum |
Você pode utilizar as opções a seguir para fornecer credenciais de acesso ao AWS SNS e SQS quando as IAM roles não estão disponíveis ou quando você está coletando dados de diferentes.
Opção |
---|
Tipo: A ID da chave de acesso AWS para o usuário. Deve ser fornecido com Valor default: Nenhum |
Tipo: A chave de acesso secreto da AWS para o usuário. Deve ser fornecido com Valor default: Nenhum |
Tipo: O ARN de uma IAM role a ser assumida. O papel pode ser assumido a partir do instance profile do seu cluster ou fornecendo credenciais com Valor default: Nenhum |
Tipo: Um identificador a ser fornecido ao assumir uma função usando Valor default: Nenhum |
Tipo: Um nome de sessão opcional para utilizar ao assumir um papel utilizando Valor default: Nenhum |
Tipo: Um ponto final opcional a ser fornecido para acessar o AWS STS ao assumir uma função utilizando o Valor default: Nenhum |
Opções específicas do Azure
Você deve fornecer valores para todas as seguintes opções se especificar cloudFiles.useNotifications
= true
e desejar que o Auto Loader configure os serviços de notificação para você:
Opção |
---|
Tipo: A ID do cliente ou ID da aplicação da entidade do serviço. Valor default: Nenhum |
Tipo: O segredo do cliente da entidade de serviço. Valor default: Nenhum |
Tipo: A string de caracteres de conexão para a conta de armazenamento, com base na chave de acesso à conta ou na assinatura de acesso compartilhado (SAS). Valor default: Nenhum |
Tipo: O Grupo de Recursos do Azure sob o qual a conta de armazenamento é criada. Valor default: Nenhum |
Tipo: O ID de assinatura do Azure sob o qual o grupo de recursos é criado. Valor default: Nenhum |
Tipo: A ID do tenant do Azure sob a qual a entidade de serviço é criada. Valor default: Nenhum |
Importante
A configuração de notificação automática está disponível nas regiões Azure China e Government com Databricks Runtime 9.1e acima. Você deve fornecer um queueName
para usar o Auto Loader com notificações de arquivo nessas regiões para versões mais antigas do DBR.
Forneça a seguinte opção apenas se escolher cloudFiles.useNotifications
= true
e pretender que o Auto Loader utilize uma fila que já configurou:
Opção |
---|
Tipo: O nome da fila Azure. Se fornecida, a origem dos arquivos de nuvem consome diretamente os eventos dessa fila em vez de configurar seus próprios serviços de Armazenamento de Filas e Grade de Eventos do Azure. Nesse caso, seu Valor default: Nenhum |
Opções específicas do Google
O Auto Loader pode configurar automaticamente os serviços de notificação para você aproveitando as Contas de serviço do Google. Você pode configurar seu cluster para assumir uma conta de serviço seguindo a configuração de serviço do Google. As permissões de que sua conta de serviço precisa são especificadas em O que é o modo de notificação de arquivo do Auto Loader?. Caso contrário, você poderá fornecer as seguintes opções de autenticação se desejar que o Auto Loader configure os serviços de notificação para você.
Opção |
---|
Tipo: A ID do cliente da conta do Google Service. Valor default: Nenhum |
Tipo: O e-mail da Conta de Serviço do Google. Valor default: Nenhum |
Tipo: A chave privada gerada para a conta de serviço do Google. Valor default: Nenhum |
Tipo: A ID da chave privada gerada para a conta de serviço do Google. Valor default: Nenhum |
Tipo: O ID do projeto em que o bucket do GCS está. A assinatura do Google Cloud Pub/Subscrição também será criada dentro deste projeto. Valor default: Nenhum |
Forneça a seguinte opção apenas se escolher cloudFiles.useNotifications
= true
e pretender que o Auto Loader utilize uma fila que já configurou:
Opção |
---|
Tipo: O nome da assinatura do Google Cloud Pub/Sub. Se fornecido, a fonte de arquivos na nuvem consome eventos desta fila em vez de configurar seus próprios serviços de Notificação GCS e Google Cloud Pub/Sub. Valor default: Nenhum |