Compare os modos de detecção de arquivos do Auto Loader
O Auto Loader suporta dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivos. O senhor pode alternar os modos de descoberta de arquivos entre as reinicializações da transmissão e ainda obter garantias de processamento de dados exatamente uma vez.
Modo de lista de diretórios
No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que o senhor comece rapidamente Auto Loader transmissão sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento cloud.
No Databricks Runtime 9.1e acima, o Auto Loader pode detectar automaticamente se os arquivos estão chegando com ordenação léxica ao seu armazenamento cloud e reduzir significativamente a quantidade de chamadas de API necessárias para detectar novos arquivos. Consulte O que é o modo de listagem de diretórios do Auto Loader? para mais detalhes.
Modo de notificação de arquivo
O modo de notificação de arquivo aproveita a notificação de arquivo e o serviço de fila em sua infraestrutura cloud account. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que se inscrevem em eventos de arquivo do diretório de entrada.
O modo de notificação de arquivo é mais eficiente e dimensionável para grandes diretórios de entrada ou um grande volume de arquivos, mas requer a configuração de permissões adicionais no site cloud. Para obter mais informações, consulte O que é o modo de notificação de arquivo Auto Loader?
Armazenamento em nuvem compatível com os modos
A disponibilidade desses modos está listada abaixo.
Se o senhor migrar de um local externo ou de uma montagem DBFS para um volume do Unity Catalog, o Auto Loader continuará a oferecer garantias de exatamente uma vez.
Armazenamento em nuvem |
Listagem de diretórios |
Notificações de arquivo |
---|---|---|
AWS S3 |
Todas as versões |
Todas as versões |
ADLS Gen2 |
Todas as versões |
Todas as versões |
GCS |
Todas as versões |
Databricks Runtime 9.1e acima |
Armazenamento de Blobs do Azure |
Todas as versões |
Todas as versões |
ADLS Gen1 |
Todas as versões |
Sem compatibilidade |
DBFS |
Todas as versões |
Somente para pontos de montagem |
Unity Catalog volume |
Databricks Runtime 13.3 LTS e acima |
Sem compatibilidade |