Auto Loader ファイル検出モードの比較

Auto Loader は、新しいファイルを検出するための 2 つのモード (ディレクトリの一覧とファイル通知) をサポートしています。 ストリームの再起動間でファイル検出モードを切り替えても、exactly-once データ処理の保証を得ることができます。

ディレクトリ一覧表示モード

ディレクトリ・リスト・モードでは、 Auto Loader は入力ディレクトリをリストして新しいファイルを識別します。 ディレクトリリストモードを使用すると、クラウドストレージ上のデータへのアクセス以外の権限設定なしで Auto Loader ストリームをすばやく開始できます。

Databricks Runtime 9.1 以降では、Auto Loader はファイルが字句順でクラウド ストレージに到着しているかどうかを自動的に検出し、新しいファイルの検出に必要な API 呼び出しの量を大幅に削減できます。詳細については、「 Auto Loader ディレクトリリストモードとは」を参照してください。

ファイル通知モード

ファイル通知モードは、クラウドインフラストラクチャアカウントのファイル通知サービスとキューサービスを活用します。 Auto Loader は、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。

ファイル通知モードは、大きな入力ディレクトリや大量のファイルに対してよりパフォーマンスとスケーラビリティがありますが、設定するには追加のクラウド権限が必要です。 詳細については、「 Auto Loader ファイル通知モードとは」を参照してください。

モードでサポートされているクラウドストレージ

これらのモードで使用できるモードは、以下のとおりです。

外部ロケーションまたは DBFS マウントから Unity Catalog ボリュームに移行する場合、 Auto Loader は引き続き一度の保証を提供します。

クラウドストレージ

ディレクトリ一覧

ファイル通知

AWS S3の

すべてのバージョン

すべてのバージョン

ADLS Gen2

すべてのバージョン

すべてのバージョン

GCSの

すべてのバージョン

Databricks Runtime 9.1 以降

Azure Blobストレージ

すべてのバージョン

すべてのバージョン

ADLS Gen1

すべてのバージョン

サポートされていません

DBFS

すべてのバージョン

マウントポイントのみ

Unity Catalog ボリューム

Databricks Runtime 13.3 LTS 以降

サポートされていません