マネージドボリュームと外部ボリューム

この記事では、マネージドボリュームと外部ボリュームの違いと、外部ボリュームの使用を選択する理由について説明します。 Databricks では、テーブル形式以外のデータの保存とアクセス管理のための最もシンプルなソリューションとして、マネージド ボリュームを推奨しています。

Unity Catalog を使用してクラウド オブジェクト ストレージへのアクセスを構成する方法の詳細については、 Unity Catalog を使用してクラウド オブジェクト ストレージに接続するを参照してください。

マネージドボリュームと外部ボリュームの動作の違い

マネージド ボリュームと外部ボリュームは、 Databricksツール、UI、 APIを使用する場合にほぼ同じエクスペリエンスを提供します。 これらのボリュームの種類の違いは次のとおりです。

マネージド ボリュームは、フルマネージド ストレージ エクスペリエンスを提供します。 これは、次のことを意味します。

  • マネージドボリューム内のファイルとのすべてのやり取りは、Unity Catalog を経由する必要があります。

  • ディレクトリの命名とデータ レイアウトは Unity Catalog によって管理されます。 ディレクトリ名には、基盤となるクラウド オブジェクト ストレージ アカウントでの競合を回避するためのハッシュが含まれます。

  • マネージドボリュームを削除すると、Databricks は 30 日以内に背後にあるデータを削除します。

外部ボリュームは、クラウド オブジェクト ストレージにデータガバナンスをもたらします。 これは、次のことを意味します。

  • Databricks または外部システムでクラウド URI を使用して、外部ボリューム内のファイルと対話できます。

  • 外部ボリューム内に作成されたすべてのディレクトリ、またはアップロードされたファイルは、作成時に指定された LOCATION を基準にしています。

  • 外部ボリュームをドロップすると、 Unity Catalogからボリュームが削除されますが、外部ロケーション内に格納されているデータは変更されません。

外部ボリュームを使用する理由

外部ボリュームを使用すると、Unity Catalog データガバナンスを既存のクラウドオブジェクトストレージディレクトリに追加できます。 外部ボリュームの使用例には、次のようなものがあります。

  • 移行せずにデータ ファイルにガバナンスを追加します。

  • Databricks によって取り込まれたりアクセスされたりする必要がある、他のシステムによって生成されたファイルを管理します。

  • 他のシステムからクラウドオブジェクトストレージから直接アクセスする必要がある Databricks によって生成されたデータを管理します。

Databricks では、Databricks に加えて外部システムによって読み取りまたは書き込みされるテーブル形式以外のデータ ファイルを保存するには、外部ボリュームを使用することをお勧めします。 Unity Catalog外部システムからクラウド オブジェクト ストレージに対して直接実行される読み取りと書き込みを管理しないため、データポリシーがDatabricks外部で尊重されるように、クラウド アカウントで追加のポリシーと資格情報を構成する必要があります。