Auto Loaderのオプション
cloudFiles
ソースに固有の構成オプションには、他の構造化ストリーミングソースオプションとは別の名前空間に存在するように、 cloudFiles
プレフィックスが付けられます。
一般的なAuto Loaderのオプション
ディレクトリリストまたはファイル通知モードについては、次のオプションを構成できます。
オプション |
---|
タイプ: 入力ディレクトリファイルの変更が既存のデータを上書きすることを許可するかどうか。 この設定を有効にすることに関しては、いくつかの注意点があります。 ファイルが追加または上書きされた場合、Auto Loaderはファイルを再度処理しますか? 詳しくは。 デフォルト値 |
タイプ: Auto Loader 、特定の間隔で非同期バックフィルをトリガーできます。 デフォルト値: なし |
タイプ: ソースパスのデータファイル形式 。許可される値は次のとおりです。
既定値: なし (必須オプション) |
タイプ: ストリーム処理入力パスに既存のファイルを含めるか、初期セットアップ後に到着する新しいファイルのみを処理するかどうか。このオプションは、初めてストリームを開始するときにのみ評価されます。ストリームの再開後にこのオプションを変更しても効果はありません。 デフォルト値 |
タイプ: スキーマ推論を利用する際に、正確な列タイプを推論するかどうか。デフォルトでは、JSONおよびCSVデータセットを推論するときに列は文字列として推論されます。詳細については、スキーマ推論を参照してください。 デフォルト値 |
タイプ: 各トリガーで処理される新しいバイトの最大数。 デフォルト値: なし |
タイプ: 重複排除の目的でファイル イベントが追跡される期間。 Databricks では、1 時間に数百万のファイル単位でデータを取り込んでいる場合を除き、このパラメーターの調整はお勧めしません。 詳細については、 イベントの保持 に関するセクションを参照してください。
デフォルト値: なし |
タイプ: 各トリガーで処理される新しいファイルの最大数。 デフォルト値:1000 |
タイプ: ファイルのディレクトリ構造から推測するHiveスタイルのパーティション列のコンマ区切りリスト。 Hive スタイルのパーティション列は、
デフォルト値: なし |
タイプ: データ内で新しい列が検出されたときにスキーマを進化させるモード。デフォルトでは、JSONデータセットを推論するときに列は文字列として推論されます。詳細については、スキーマ進化 を参照してください。 デフォルト値:スキーマが提供されていない場合は |
タイプ: スキーマ推論中にAuto Loaderに提供するスキーマ情報。詳細については、スキーマのヒントを参照してください。 デフォルト値: なし |
タイプ: 推論されたスキーマとその後の変更を保存する場所。詳細については、スキーマ推論を参照してください。 デフォルト値:なし(スキーマを推論する場合に必要) |
タイプ: で他のファイル ソースのデフォルト グロビング動作と一致する厳密な を使用するかどうかglobberApache Spark詳細については、「 一般的なデータ読み込みパターン 」を参照してください。 Databricks Runtime 12.2 LTS 以降で使用できます。 デフォルト値 |
タイプ: Auto Loaderオプションを検証し、不明なオプションまたは一貫性のないオプションに対してエラーを返すかどうか。 デフォルト値 |
ディレクトリリストのオプション
以下のオプションは、ディレクトリリストモードに関連するものです。
オプション |
---|
タイプ: この機能は非推奨になりました。 Databricks では、 ディレクトリ・リスト・モードでフル・リストではなく、インクリメンタル・リストを使用するかどうか。 デフォルトにより、 Auto Loader は、特定のディレクトリがインクリメンタル リストに適用可能かどうかを自動的に検出するために最善の努力を払います。 増分リストを明示的に使用することも、ディレクトリ全体をそれぞれ 語彙的に順序付けられていないディレクトリでインクリメンタルリストを誤って有効にすると、 Auto Loader 新しいファイルを検出できなくなります。 Azure Data Lake Storage Gen2( Databricks Runtime 9.1 LTS 以降で使用できます。 デフォルト値 使用可能な値: |
ファイル通知オプション
以下のオプションは、ファイル通知モードに関連するものです。
オプション |
---|
タイプ: キューイングサービスからメッセージを取得するときに使用するスレッドの数。 デフォルト値:1 |
タイプ:JSON文字列 複数のS3バケットからファイル通知を受け取る デフォルト値: なし |
タイプ: 関連リソースの関連付けと識別に役立つ一連のキーと値のタグのペア。次に例を示します。
AWSの詳細については、SQS コスト配分タグAmazonおよびAmazon SNS のタグの構成トピックを参照してください。(1) Azureの詳細については、「キューとメタデータの名前付け」および「イベント サブスクリプションの GCPの詳細については、「ラベルを使用した使用状況のレポート」を参照してください。(1) デフォルト値: なし |
タイプ: ファイル通知モードを使用して、新しいファイルがいつ存在するかを判断するかどうか。 デフォルト値 |
(1) Auto Loaderは、デフォルトではベストエフォートベースで次のキーと値のタグのペアを追加します。
vendor
:Databricks
path
: データが読み込まれる場所。ラベル付けの制限のため、GCPでは使用できません。checkpointLocation
: ストリームのチェックポイントの場所。ラベル付けの制限のため、GCPでは使用できません。streamId
: ストリームのグローバル一意識別子。
これらのキー名は予約されており、その値を上書きすることはできません。
ファイル形式のオプション
Auto Loaderを使用すると、JSON
、CSV
、PARQUET
、AVRO
、TEXT
、BINARYFILE
、およびORC
ファイルを取り込むことができます。
一般的なオプション
次のオプションは、すべてのファイル形式に適用されます。
オプション |
---|
タイプ: 破損したファイルを無視するかどうか。 true の場合、破損したファイルに遭遇しても Spark ジョブは引き続き実行され、読み取られた内容は引き続き返されます。 Delta Lake履歴の デフォルト値 |
タイプ: 見つからないファイルを無視するかどうか。 true の場合、不足しているファイルが検出されても Spark ジョブは引き続き実行され、読み取られた内容は引き続き返されます。 Databricks Runtime 11.3 LTS 以降で使用できます。 デフォルト値: |
タイプ: 指定されたタイムスタンプより後の変更タイムスタンプを持つファイルを取り込むためのオプションのタイムスタンプ。 デフォルト値: なし |
タイプ: 指定されたタイムスタンプより前の変更タイムスタンプを持つファイルを取り込むためのオプションのタイムスタンプ。 デフォルト値: なし |
タイプ: ファイルを選択するために提供される潜在的なglobパターン。 デフォルト値: なし |
タイプ: スキーマ推論中にパーティション推論をスキップするかどうか。 これは、ロードされるファイルには影響しません。 デフォルト値 |
JSON
オプション
オプション |
---|
タイプ: バックスラッシュの後に続く文字のエスケープを許可するかどうか。有効にしない場合、JSON仕様で明示的にリストされている文字のみをエスケープできます。 デフォルト値 |
タイプ: 構文解析されたコンテンツ内で、Java、C、C++スタイルのコメント( デフォルト値 |
タイプ: 数値でない( デフォルト値 |
タイプ: 整数を追加の (無視可能な) ゼロ ( デフォルト値 |
タイプ: 文字列(名前と文字列値)の引用符付けに一重引用符(アポストロフィ、文字 デフォルト値 |
タイプ: JSON文字列に、エスケープされていない制御文字(タブ文字や改行文字を含む、値が32未満のASCII文字)を含めることを許可するかどうか。 デフォルト値 |
タイプ: 引用符で囲まれていないフィールド名の使用を許可するかどうか(JavaScriptでは許可されているが、JSON仕様では許可されていない)。 デフォルト値 |
タイプ: 不正なJSONレコードに関する情報を記録するためのファイルを保存するパス。 デフォルト値: なし |
タイプ: 形式が正しくなく、解析できないレコードを格納するための列。解析用の デフォルト値 |
タイプ: 日付文字列を解析するための形式。 デフォルト値 |
タイプ: スキーマ推論中に、すべてのNULL値の列、または空の配列および構造体を無視するかどうか。 デフォルト値 |
タイプ: JSONファイルのエンコーディングの名前。オプションのリストについては、 デフォルト値 |
タイプ: タイムスタンプ文字列を デフォルト値 |
タイプ: 連続する2つのJSONレコード間の文字列。 デフォルト値:なし。次ををカバーします: |
タイプ:
デフォルト値 |
タイプ: 不正な形式のレコードの処理に関するパーサーモード。 デフォルト値 |
タイプ: JSONレコードが複数行にまたがるかどうか。 デフォルト値 |
タイプ: 可能な場合は、float型またはdouble型ではなく、文字列を デフォルト値 |
タイプ: 数値やブール値などのプリミティブ型を デフォルト値 |
タイプ:
デフォルト値 |
タイプ: データ型の不一致またはスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。 この列は、 Auto Loaderを使用する場合にデフォルトに含まれます。 詳細については、 レスキューされたデータ列とはを参照してください。 デフォルト値: なし |
タイプ: JSON ドキュメント全体を取り込むかどうか。列の名前として指定された文字列を持つ 1 つの Variant 列に解析されます。 無効にすると、JSON フィールドは独自の列に取り込まれます。 デフォルト値: なし |
タイプ: タイムスタンプ文字列を解析するための形式。 デフォルト値 |
タイプ: タイムスタンプと日付を解析するときに使用する デフォルト値: なし |
CSV
オプション
オプション |
---|
タイプ: 不正なCSVレコードに関する情報を記録するファイルを保存するパス。 デフォルト値: なし |
タイプ: 引用符のエスケープに使用される文字をエスケープするために使用される文字。たとえば、次のレコードの場合:
デフォルト値 |
注: Auto Loaderでサポートされています。 タイプ: 形式が正しくなく、解析できないレコードを格納するための列。解析用の デフォルト値 |
タイプ: テキスト行の先頭にある場合に、行コメントを表す文字を定義します。コメントのスキップを無効にするには、 デフォルト値 |
タイプ: 日付文字列を解析するための形式。 デフォルト値 |
タイプ: 空の値の文字列形式。 デフォルト値 |
タイプ: CSVファイルのエンコード名。オプションのリストについては、 デフォルト値 |
タイプ: 指定したスキーマまたは推論されたスキーマを CSV ファイルに強制的に適用するかどうか。 このオプションを有効にすると、CSV ファイルのヘッダーは無視されます。 このオプションは、 Auto Loader を使用してデータをレスキューし、スキーマ進化を許可する場合、デフォルトで無視されます。 デフォルト値 |
タイプ: データの解析時に使用するエスケープ文字。 デフォルト値 |
タイプ: CSVファイルにヘッダーが含まれているかどうか。Auto Loaderは、スキーマを推論するときにファイルにヘッダーがあると想定します。 デフォルト値 |
タイプ: 解析された各値の先頭の空白を無視するかどうか。 デフォルト値 |
タイプ: 解析された各値の末尾の空白を無視するかどうか。 デフォルト値 |
タイプ: 解析されたCSVレコードのデータ型を推測するか、すべての列が デフォルト値 |
タイプ: 連続する2つのCSVレコード間の文字列。 デフォルト値:なし。次ををカバーします: |
タイプ:
デフォルト値 |
タイプ: 解析する値から予想される最大文字数。メモリエラーを回避するために使用できます。デフォルトは デフォルト値 |
タイプ: レコードに含めることができる列数のハードリミット。 デフォルト値 |
タイプ: 複数のファイルにまたがるスキーマを推測し、各ファイルのスキーマをマージするかどうか。 スキーマを推論するときに Auto Loader するためにデフォルトで有効になります。 デフォルト値 |
タイプ: 不正な形式のレコードの処理に関するパーサーモード。 デフォルト値 |
タイプ: CSVレコードが複数行にまたがるかどうか。 デフォルト値 |
タイプ:
デフォルト値 |
タイプ:
デフォルト値 |
タイプ: null値の文字列形式。 デフォルト値 |
タイプ: ファイルの読み取り中に、ヘッダーで宣言された列をスキーマの大文字と小文字を区別して配置するかどうか。Auto Loaderのデフォルトでは、これは デフォルト値 |
タイプ:
デフォルト値 |
タイプ: 可能な場合は、文字列をタイムスタンプではなく日付として推測しようとします。また デフォルト値 |
タイプ: フィールド区切り文字が値の一部である場合に、値をエスケープするために使用される文字。 デフォルト値 |
タイプ:
デフォルト値 |
タイプ: データ型の不一致、およびスキーマの不一致 (列の大文字と小文字の区別を含む) が別の列に一致しているため、解析できないすべてのデータを収集するかどうか。 この列は、 Auto Loaderを使用する場合にデフォルトに含まれます。 詳細については、「 レスキューされたデータ列とは」を参照してください。 デフォルト値: なし |
タイプ: 列間の区切り記号文字列。 デフォルト値 |
タイプ: CSVファイルの先頭から無視すべき行数(コメント行や空行を含む)。 デフォルト値 |
タイプ: タイムスタンプ文字列を解析するための形式。 デフォルト値 |
タイプ: タイムスタンプと日付を解析するときに使用する デフォルト値: なし |
タイプ: エスケープされていない引用符を処理するための戦略。許可されるオプション:
デフォルト値 |
XML
オプション
オプション |
説明 |
スコープ |
---|---|---|
|
行として扱う XML ファイルの行タグ。 XML |
読み取り |
|
スキーマ推論に使用される行の一部を定義します。 XML 組み込み関数はこのオプションを無視します。 デフォルト: |
読み取り |
|
要素内の属性を除外するかどうか。 デフォルト: |
読み取り |
|
解析中に破損したレコードを処理するためのMode。
|
読み取り |
|
|
読み取り |
|
|
読み取り |
|
属性と要素を区別するための属性の接頭辞。 これは、フィールド名のプレフィックスになります。 デフォルトは |
読み取り、書き込み |
|
属性要素または子要素も持つ要素内の文字データに使用されるタグ。 ユーザーはスキーマで |
読み取り、書き込み |
|
読み取り用に、指定されたエンコードタイプでXMLファイルをデコードします。 書き込み用に、保存されたXMLファイルのエンコーディング(charset)を指定します。 XML 組み込み関数はこのオプションを無視します。 デフォルト: |
読み取り、書き込み |
|
読み取られる値から周囲の空白をスキップするかどうかを定義します。 デフォルト: |
読み取り |
|
各行の XML を個別に検証するために使用されるオプションの XSD ファイルへのパス。 検証に失敗した行は、上記のように解析エラーのように扱われます。 それ以外の場合、XSD は、提供または推論されるスキーマに影響を与えません。 |
読み取り |
|
|
読み取り |
|
datetime パターン形式に従うカスタム・タイム・スタンプ・フォーマット文字列。これは |
読み取り、書き込み |
|
datetime パターン形式に従うタイムゾーンなしのタイムスタンプのカスタム書式指定文字列。 これは TimestampNTZType 型に適用されます。 デフォルト:
|
読み取り、書き込み |
|
datetime パターン形式に従うカスタム日付形式文字列。これは日付タイプに適用されます。 デフォルト: |
読み取り、書き込み |
|
ロケールを IETF BCP 47 形式の言語タグとして設定します。 たとえば、 |
読み取り |
|
XML ファイルのルート タグ。 たとえば、 |
書き込み |
|
XML宣言の内容は、すべての出力XMLファイルの先頭、 |
書き込み |
|
書き込み時に配列値カラムの各要素を囲むXML要素の名前。 デフォルト: |
書き込み |
|
null 値の文字列表現を設定します。 デフォルト: 文字列 |
読み取り、書き込み |
|
ファイルに保存するときに使用する圧縮コード。 これは、大文字と小文字を区別しない既知の短縮名( |
書き込み |
|
true の場合、XML 要素名の検証エラーでエラーをスローします。 たとえば、SQL フィールド名にはスペースを含めることができますが、XML 要素名にスペースを含めることはできません。 デフォルト: |
書き込み |
|
rescuedDataColumn が有効な場合の大文字と小文字の区別動作を指定します。 true の場合、名前がスキーマと大文字と小文字で異なるデータ列をレスキューします。それ以外の場合は、大文字と小文字を区別しない方法でデータを読み取ります。 デフォルト: |
読み取り |
|
データ型の不一致とスキーマの不一致 (列の大文字と小文字の区別を含む) が原因で解析できないすべてのデータを別の列に収集するかどうか。 この列は、 Auto Loaderを使用する場合にデフォルトに含まれます。 詳細については、「 レスキューされたデータ列とは」を参照してください。 デフォルト: なし。 |
読み取り |
PARQUET
オプション
オプション |
---|
タイプ: ユリウス暦と先発グレゴリオ暦の間でのDATE値とTIMESTAMP値のリベースを制御します。使用できる値: デフォルト値 |
タイプ: INT96のタイムスタンプ値をユリウス暦と先発グレゴリオ暦の間でリベースすることを制御します。使用できる値: デフォルト値 |
タイプ: 複数ファイルからスキーマを推定し、各ファイルのスキーマをマージするかどうか。 デフォルト値 |
タイプ:
デフォルト値 |
タイプ: データ型の不一致、およびスキーマの不一致 (列の大文字と小文字の区別を含む) が別の列に一致しているため、解析できないすべてのデータを収集するかどうか。 この列は、 Auto Loaderを使用する場合にデフォルトに含まれます。 詳細については、「 レスキューされたデータ列とは」を参照してください。 デフォルト値: なし |
AVRO
オプション
オプション |
---|
タイプ: ユーザーがAvroフォーマットで提供するオプションのスキーマ。Avroを読み取る際、このオプションは、互換性はあるが実際のAvroスキーマとは異なる、進化したスキーマに設定することができます。逆シリアル化スキーマは、進化したスキーマと一致します。たとえば、デフォルト値を持つ1つの追加列を含む進化したスキーマを設定すると、読み取り結果には新しい列も含まれます。 デフォルト値: なし |
タイプ: ユリウス暦と先発グレゴリオ暦の間でのDATE値とTIMESTAMP値のリベースを制御します。使用できる値: デフォルト値 |
タイプ: 複数ファイルからスキーマを推定し、各ファイルのスキーマをマージするかどうか。Avroの デフォルト値 |
タイプ:
デフォルト値 |
タイプ: データ型の不一致、およびスキーマの不一致 (列の大文字と小文字の区別を含む) が別の列に一致しているため、解析できないすべてのデータを収集するかどうか。 この列は、 Auto Loaderを使用する場合にデフォルトに含まれます。 詳細については、「 レスキューされたデータ列とは」を参照してください。 デフォルト値: なし |
BINARYFILE
オプション
バイナリファイルには追加の設定オプションはありません。
TEXT
オプション
オプション |
---|
タイプ: TEXTファイルのエンコーディングの名前。オプションのリストについては、 デフォルト値 |
タイプ: 連続する2つのTEXTレコード間の文字列。 デフォルト値:なし。これは、以下をカバーします: |
タイプ: ファイルを単一レコードとして読み取るかどうか。 デフォルト値 |
ORC
オプション
オプション |
---|
タイプ: 複数ファイルからスキーマを推定し、各ファイルのスキーマをマージするかどうか。 デフォルト値 |
クラウド固有のオプション
Auto Loaderには、クラウドインフラを構成するためのオプションが多数用意されています。
AWS固有のオプション
cloudFiles.useNotifications
= true
を選択し、Auto Loaderで通知サービスを設定する場合にのみ、次のオプションを指定します。
オプション |
---|
タイプ: ソースS3バケットが存在し、AWS SNSとSQSサービスが作成されるリージョン。 デフォルト値: EC2 インスタンスのリージョン。 |
cloudFiles.useNotifications
= true
を選択し、すでに設定したキューをAuto Loaderで使用する場合にのみ、次のオプションを指定します。
オプション |
---|
タイプ: SQSキューのURL。提供された場合、Auto Loaderは独自のAWS SNSとSQSサービスをセットアップする代わりに、このキューから直接イベントを消費します。 デフォルト値: なし |
IAMロールが利用できない場合や、異なるクラウドからデータを取り込む場合は、以下のオプションを使用してAWS SNSとSQSにアクセスするための認証情報を提供できます。
オプション |
---|
タイプ: ユーザーのAWSアクセスキーID。 デフォルト値: なし |
タイプ: ユーザーのAWSシークレットアクセスキー。 デフォルト値: なし |
タイプ: 引き受けるIAMロールのARN。このロールは、クラスターのインスタンスプロファイルから、または デフォルト値: なし |
タイプ:
デフォルト値: なし |
タイプ:
デフォルト値: なし |
タイプ:
デフォルト値: なし |
Azure固有のオプション
cloudFiles.useNotifications
= true
を指定し、Auto Loaderに通知サービスを設定させる場合は、次のすべてのオプションに値を指定する必要があります。
オプション |
---|
タイプ: サービスプリンシパルのクライアントIDまたはアプリケーションID。 デフォルト値: なし |
タイプ: サービスプリンシパルのクライアントシークレット。 デフォルト値: なし |
タイプ: アカウントアクセスキーあるいは共有アクセス署名(SAS)に基づく、ストレージアカウントの接続文字列。 デフォルト値: なし |
タイプ: ストレージアカウントが作成されるAzureリソースグループ。 デフォルト値: なし |
タイプ: リソースグループが作成されるAzureサブスクリプションID。 デフォルト値: なし |
タイプ: サービスプリンシパルが作成されAzureテナントID。 デフォルト値: なし |
重要
自動通知セットアップは、Databricks Runtime 9.1以降を使用するAzure ChinaおよびGovernmentリージョンで利用できます。古いDBRバージョンのこれらのリージョンでファイル通知で自動ローダーを使用するには、queueName
を指定する必要があります。
cloudFiles.useNotifications
= true
を選択し、すでに設定したキューをAuto Loaderで使用する場合にのみ、次のオプションを指定します。
オプション |
---|
タイプ: Azureキューの名前。指定されている場合、クラウドファイルソースは、独自のAzure Event Gridサービスとキューストレージサービスを設定する代わりに、このキューからイベントを直接消費します。その場合、 デフォルト値: なし |
Google固有のオプション
Auto Loader は、Google サービス アカウントを活用して、通知サービスを自動的に設定できます。 Google サービスの設定に従って、サービス アカウントを引き受けるようにクラスターを構成できます。サービス アカウントに必要な権限は 、「 Auto Loader ファイル通知モードとは」で指定されています。 それ以外の場合は、通知サービスの設定を Auto Loader に依頼する場合に、認証に次のオプションを提供できます。
オプション |
---|
タイプ: GoogleサービスアカウントのクライアントID。 デフォルト値: なし |
タイプ: Googleサービスアカウントのメールアドレス。 デフォルト値: なし |
タイプ: Googleサービスアカウント用に生成された秘密鍵。 デフォルト値: なし |
タイプ: Googleサービスアカウント用に生成された秘密鍵のID。 デフォルト値: なし |
タイプ: GCSバケットが存在するプロジェクトのID。Google Cloud Pub/Subサブスクリプションもこのプロジェクト内に作成されます。 デフォルト値: なし |
cloudFiles.useNotifications
= true
を選択し、すでに設定したキューをAuto Loaderで使用する場合にのみ、次のオプションを指定します。
オプション |
---|
タイプ: Google Cloud Pub/Subサブスクリプションの名前。指定されている場合、クラウドファイルソースは独自のGCS通知サービスとGoogle Cloud Pub/Subサービスを設定する代わりに、このキューからのイベントを消費します。 デフォルト値: なし |