Databricksアーキテクチャの概要

この記事では、Databricks アーキテクチャの概要 (エンタープライズアーキテクチャを含む) と Google クラウドの組み合わせについて説明します。

ハイレベルのアーキテクチャ

Databricks は、コントロールプレーンとコンピュートプレーンから動作します。

コントロールプレーンには、DatabricksアカウントでDatabricksが管理するバックエンドサービスが含まれます。 Webアプリケーションはコントロールプレーンにあります。
コンピュートプレーンは、データが処理される場所です。使用するコンピュートに応じた2 種類のコンピュートプレーンが存在します。
- サーバレスコンピュートの場合、サーバレスコンピュートリソースはDatabricksアカウントの サーバレスコンピュートプレーンで実行されます。
- クラシックDatabricksコンピュートの場合、コンピュートリソースは、クラシックコンピュートプレーンと呼ばれる Google クラウドリソース内にあります。これは、Google クラウドリソース内のネットワークとそのリソースを指します。
クラシックコンピュートとサーバレスコンピュートの詳細については、コンピュートの種類を参照してください。

各 Databricks ワークスペースには、ワークスペースストレージバケットと呼ばれる 2 つの関連付けられたバケットアカウントがあります。ワークスペースストレージバケットは Google クラウドアカウント内にあります。

次の図は、Databricks の全体的なアーキテクチャを示しています。

サーバレスコンピュートプレーン

サーバレスコンピュートプレーンで、Databricks アカウント内のコンピュートレイヤーでコンピュートリソースDatabricks実行します。Databricks は、ワークスペースの従来のコンピュート平面と同じ Google クラウドリージョンにサーバレスコンピュート平面を作成します。このリージョンは、ワークスペースの作成時に選択します。

サーバーレスコンピュートプレーン内の顧客データを保護するために、サーバーレスコンピュートはワークスペースのネットワーク境界内で実行され、さまざまなセキュリティレイヤーを使用して、同じ顧客のクラスター間で異なるDatabricksワークスペースと追加のネットワーク制御を分離します。

サーバレスコンピュートプレーンでのネットワークの詳細については、「サーバレスコンピュートプレーンのネットワーク」を参照してください。

クラシックコンピュートプレーン

従来のコンピュートプレーンでは、 Databricksコンピュートリソースが Google クラウドアカウントで実行されます。顧客の Google クラウドアカウント内の各ワークスペースの仮想ネットワーク内に、新しいコンピュートリソースが作成されます。

従来のコンピュートプレーンは、各顧客独自の Google クラウドアカウントで実行されるため、自然な分離が実現します。クラシックコンピュートプレーンでのネットワークの詳細については、「クラシックコンピュートプレーンのネットワーク」を参照してください。

リージョンサポートについては、「Databricksのクラウドとリージョン」を参照してください。

ワークスペースストレージバケット

ワークスペースを作成すると、 Databricksワークスペースストレージバケットとして使用するために Google クラウドアカウントに 3 つのバケットを作成します。

1 つのワークスペースストレージバケットには、ノートブックの作成などのさまざまな Databricks 機能を使用するときに生成されるワークスペースシステムデータが格納されます。このバケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンドの結果、Spark ログが含まれます。
もう 1 つのワークスペースストレージバケットは、 DBFS用のワークスペースのルートストレージです。 DBFS (Databricks ファイルシステム) は、 dbfs:/名前空間でアクセスできる Databricks 環境の分散ファイルシステムです。 DBFSルートとDBFSマウントは両方ともdbfs:/名前空間にあります。 DBFSルートまたはDBFSマウントを使用してデータを保存およびアクセスすることは非推奨のパターンであり、 Databricksでは推奨されていません。詳細については、「 DBFSとは?」を参照してください。。
ワークスペースが Unity Catalog に対して自動的に有効になっている場合、3 番目のワークスペースストレージバケットにはデフォルトのUnity Catalog ワークスペースカタログが含まれます。ワークスペース内のすべてのユーザーは、このカタログのデフォルトスキーマでアセットを作成できます。「Unity Catalog のセットアップと管理」を参照してください。

ワークスペースストレージバケットへのアクセスを制限するには、「プロジェクト内のワークスペースの GCS バケットを保護する」をご覧ください。