Databricks どこにデータを書き込みますか?

この記事では、Databricks が日常的な操作と構成でデータを書き込む場所について詳しく説明します。 Databricks には、多くのテクノロジにまたがり、共有責任モデルでクラウドリソースと対話するツールスイートがあるため、データの保存に使用されるデフォルトの場所は、実行環境、構成、ライブラリによって異なります。

この記事の情報は、さまざまな操作のデフォルトパスと、構成によってこれらのデフォルトがどのように変更されるかを理解するのに役立つことを目的としています。データへのアクセスの設定と制御に関するガイダンスを探しているデータスチュワードと管理者は、Unity Catalogを使用したデータガバナンスを参照してください。

オブジェクトストレージおよびその他のデータソースの構成については、「データソースへの接続」を参照してください。

オブジェクトストレージとは

クラウドコンピューティングでは、オブジェクトストレージまたは BLOB ストレージは、データをオブジェクトとして保持するストレージコンテナーを指します。各オブジェクトは、データ、メタデータ、およびグローバルに一意のリソース識別子 (URI) で構成されます。オブジェクトストレージのデータ操作は、多くの場合、REST API インターフェイスを介した作成、読み取り、更新、削除 (CRUD) に制限されます。一部のオブジェクトストレージ製品には、バージョン管理やライフサイクル管理などの機能が含まれています。オブジェクトストレージには、次の利点があります。

高可用性、耐久性、信頼性。
他のほとんどのストレージオプションと比較して、ストレージコストが削減されます。
無制限にスケーラブルです (特定のクラウドリージョンで使用可能なストレージの合計量によって制限されます)。

ほとんどのクラウドベースのデータレイクは、クラウドオブジェクトストレージのオープンソースデータ形式の上に構築されています。

Databricks はオブジェクトストレージをどのように使用しますか?

オブジェクトストレージは、Databricks がほとんどの操作で使用する主なストレージ形式です。 Unity Catalogストレージの認証情報と外部ロケーションを使用して、クラウドオブジェクトストレージへのアクセスを構成します。これらの場所は、テーブルとボリュームをバッキングするデータファイルを格納するために使用されます。「Unity Catalog を使用してクラウドオブジェクトストレージに接続する」を参照してください。

外部データシステムに対してテーブルを特に構成しない限り、Databricks で作成されたすべてのテーブルは、クラウドオブジェクトストレージにデータを格納します。

クラウドオブジェクトストレージに保存された Delta Lake ファイルは、Databricks レイクハウスのデータ基盤を提供します。

ブロックストレージとは

クラウドコンピューティングでは、ブロックストレージまたはディスクストレージは、従来のハードディスクドライブ (HDD) またはソリッドステートドライブ (SSD) (「ハードドライブ」とも呼ばれます) に対応するストレージボリュームを指します。クラウドコンピューティング環境にブロックストレージを展開する場合、通常は 1 つ以上の物理ドライブの論理パーティションが展開されます。実装は製品の提供内容やクラウドベンダーによって若干異なりますが、通常、実装全体で次のような特徴が見られます。

すべての仮想マシン(VM)には、ブロック・ストレージ・ボリュームがアタッチされている必要があります。
ブロック・ストレージ・ボリュームにインストールされたファイルおよびプログラムは、ブロック・ストレージ・ボリュームが存続する限り存続します。
ブロック・ストレージ・ボリュームは、多くの場合、一時的なデータ・ストレージに使用されます。
VMにアタッチされたブロック・ストレージ・ボリュームは、通常、VMとともに削除されます。

Databricks ではブロックストレージがどのように使用されますか?

コンピュートリソースをオンにすると、 Databricks VM を構成してデプロイし、ブロックストレージボリュームを接続します。このブロックストレージは、コンピュートリソースの存続期間中、一時的なデータファイルを保存するために使用されます。これらのファイルには、オペレーティングシステム、インストールされているライブラリ、ディスクキャッシュで使用されるデータが含まれます。 Apache Spark は効率的な並列化とデータ読み込みのためにバックグラウンドでブロックストレージを使用しますが、Databricks で実行されるほとんどのコードは、データをブロックストレージに直接保存または読み込みません。

ドライバーノードに接続されたブロックストレージを使用する Python や Bash コマンドなどの任意のコードを実行できます。「ドライバーノードにアタッチされたエフェメラルストレージ内のファイルの操作」を参照してください。

Unity Catalog データファイルはどこに保存されますか?

Unity Catalog は、クラウドストレージとリレーショナルオブジェクト間の関係を構成するために管理者に依存しています。データが存在する正確な場所は、管理者がリレーションをどのように設定したかによって異なります。

Unity Catalog によって管理されるオブジェクトに書き込まれたデータまたはアップロードされたデータは、次のいずれかの場所に格納されます。

メタストア、カタログ、またはスキーマに関連付けられたマネージドストレージロケーション。マネージドテーブルおよびマネージドボリュームに書き込まれたデータまたはアップロードされたデータは、マネージドストレージを使用します。「Unity Catalog でマネージドストレージロケーションを指定する」を参照してください。
ストレージ資格情報で構成された外部ロケーション。外部テーブルおよび外部ボリュームに書き込まれたデータまたはアップロードされたデータは、外部ストレージを使用します。「 Unity Catalog を使用したクラウドオブジェクトストレージへの接続」を参照してください。

Databricks SQL はデータバッキングテーブルをどこに格納しますか?

Unity Catalog で構成された Databricks SQL を使用して CREATE TABLE ステートメントを実行すると、既定の動作では、Unity Catalog で構成されたマネージドストレージの場所にデータファイルが格納されます。「 Unity Catalog はデータファイルを格納する場所」を参照してください。

従来の hive_metastore カタログは、異なるルールに従います。 Unity Catalog とレガシー Hive metastoreの操作を参照してください。

Delta Live Tables データファイルはどこに保存されますか?

Databricks では、DLT パイプラインを作成するときに Unity Catalog を使用することをお勧めします。データは、ターゲットスキーマに関連付けられた管理ストレージの場所にあるディレクトリに格納されます。

オプションで、 Hive metastoreを使用して DLT パイプラインを構成できます。 Hive metastoreを使用して構成すると、DBFS またはクラウドオブジェクトストレージ上のストレージの場所を指定できます。場所を指定しない場合は、DBFSルート上の場所がパイプラインに割り当てられます。

Apache Spark はデータファイルをどこに書き込みますか?

Databricks では、データの読み取りと書き込みに Unity Catalog でオブジェクト名を使用することをお勧めします。次のパターンを使用して、 Unity Catalog ボリュームにファイルを書き込むこともできます。 /Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>。 Unity Catalogで管理されるオブジェクトにデータをアップロード、作成、更新、または挿入するための十分な特権が必要です。

オプションで、ユニバーサルリソースインジケーター (URI) を使用して、データファイルへのパスを指定できます。 URI はクラウドプロバイダーによって異なります。また、現在のコンピュートリソースに対してクラウドオブジェクトストレージに書き込むための書き込み権限が設定されている必要があります。

Databricks 、 Databricks Filesystemを使用して、 Apache Spark読み取りおよび書き込みコマンドをクラウドオブジェクトストレージにマッピングします。各Databricksワークスペースには、ワークスペースに割り当てられたクラウド上でアカウントが構成されたDBFSルートストレージの場所があり、すべてのユーザーがデータの読み取りと書き込みのためにアクセスできます。 Databricks本番運用データの保存にDBFSルートを使用することはお勧めしません。 DBFSとは何か?」およびDBFSルートの使用に関する推奨事項」を参照してください。

pandas は Databricks のどこにデータファイルを書き込みますか?

Databricks Runtime 14.0 以降では、すべてのローカル Python の読み取りおよび書き込み操作の既定の現在の作業ディレクトリ (CWD) は、ノートブックを含むディレクトリです。データファイルを保存するときにファイル名のみを指定すると、pandas は現在実行中のノートブックと並行してそのデータファイルをワークスペースファイルとして保存します。

すべての Databricks Runtime バージョンがワークスペースファイルをサポートしているわけではありません。また、一部の Databricks Runtime バージョンは、ノートブックを使用するか Git フォルダーを使用するかによって動作が異なります。「デフォルトの現在の作業ディレクトリとは何ですか?」を参照してください。。

Databricksのどこに一時ファイルを書き込む必要がありますか?

クラスターのシャットダウン後に保持しない一時ファイルを書き込む必要がある場合は、一時ファイルを $TEMPDIR に書き込む方が、CWD がワークスペース・ファイルシステム内にある場合は現行作業ディレクトリー (CWD) に書き込むよりもパフォーマンスが高くなります。また、コードがリポジトリで実行される場合は、ブランチサイズの制限を超えないようにすることもできます。詳細については、「ファイルとリポジトリの制限」を参照してください。

書き込むデータの量が多く、ストレージをオートスケールにしたい場合は、 /local_disk0に書き込みます。