Auto Loader ファイル検出モードの比較
Auto Loader は、新しいファイルを検出するための 2 つのモード (ディレクトリの一覧とファイル通知) をサポートしています。 ストリームの再起動間でファイル検出モードを切り替えても、exactly-once データ処理の保証を得ることができます。
ディレクトリ一覧表示モード
ディレクトリ・リスト・モードでは、 Auto Loader は入力ディレクトリをリストして新しいファイルを識別します。 ディレクトリリストモードを使用すると、クラウドストレージ上のデータへのアクセス以外の権限設定なしで Auto Loader ストリームをすばやく開始できます。
Databricks Runtime 9.1 以降では、Auto Loader はファイルが字句順でクラウド ストレージに到着しているかどうかを自動的に検出し、新しいファイルの検出に必要な API 呼び出しの量を大幅に削減できます。詳細については、「 Auto Loader ディレクトリリストモードとは」を参照してください。
ファイル通知モード
ファイル通知モードは、クラウドインフラストラクチャアカウントのファイル通知サービスとキューサービスを活用します。 Auto Loader は、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。
ファイル通知モードは、大きな入力ディレクトリや大量のファイルに対してよりパフォーマンスとスケーラビリティがありますが、設定するには追加のクラウド権限が必要です。 詳細については、「 Auto Loader ファイル通知モードとは」を参照してください。
モードでサポートされているクラウドストレージ
これらのモードで使用できるモードは、以下のとおりです。
外部ロケーションまたは DBFS マウントから Unity Catalog ボリュームに移行する場合、 Auto Loader は引き続き一度の保証を提供します。
クラウドストレージ |
ディレクトリ一覧 |
ファイル通知 |
---|---|---|
AWS S3の |
すべてのバージョン |
すべてのバージョン |
ADLS Gen2 |
すべてのバージョン |
すべてのバージョン |
GCSの |
すべてのバージョン |
Databricks Runtime 9.1 以降 |
Azure Blobストレージ |
すべてのバージョン |
すべてのバージョン |
ADLS Gen1 |
すべてのバージョン |
サポートされていません |
DBFS |
すべてのバージョン |
マウントポイントのみ |
Unity Catalog ボリューム |
Databricks Runtime 13.3 LTS 以降 |
サポートされていません |