レイクハウスのリファレンスアーキテクチャをダウンロードする
この記事では、データソース、インジェスト、変換、クエリと処理、サービング、分析/出力、およびストレージの観点から、レイクハウスのアーキテクチャガイダンスについて説明します。
各リファレンスアーキテクチャは、11 x 17(A3)フォーマットのPDFをダウンロードできます。
リファレンスアーキテクチャの構成
リファレンスアーキテクチャは、ソース、インジェスト、変換、クエリと処理、サーブ、分析、ストレージというスイムレーンに沿って構成されています。
ソース
このアーキテクチャでは、半構造化データ、非構造化データ(センサーとIoT、メディア、ファイル/ログ)と構造化データ(RDBMS、ビジネスアプリケーション)を区別します。SQLソース(RDBMS)は、レイクハウスフェデレーションによってETLなしでレイクハウスとUnity Catalogに統合することもできます。さらに、他のクラウドプロバイダーからデータがロードされる場合もあります。
インジェスト
データはバッチまたはストリーミング経由でレイクハウスに取り込むことができます。
クラウドストレージに配信されたファイルは、Databricks Auto Loaderを使用して直接読み込むことができます。
エンタープライズアプリケーションから Delta Lakeへのデータのバッチインジェストの場合、 Databricksレイクハウスは、これらの記録システムに特化したアダプターを備えた パートナーインジェストツールに依存しています。
ストリーミングイベントは、Databricks構造化ストリーミングを使用して、Kafkaなどのイベントストリーミングシステムから直接取り込むことができます。ストリーミングソースは、センサー、IoT、またはチェンジデータキャプチャプロセスです。
ストレージ
データは通常クラウドストレージシステムに保存され、ETLパイプラインはメダリオンアーキテクチャを使用して、データをデルタファイル/テーブルとしてキュレーションされた方法で保存します。
変換およびクエリと処理
Databricksレイクハウスは、すべての変換とクエリに Apache SparkとPhotonのエンジンを使用します。
宣言型フレームワークDLT(Delta Live Tables)は、そのシンプルさから、信頼性が高く、保守しやすく、テスト可能なデータ処理パイプラインの構築に適しています。
Apache SparkとPhotonを搭載したDatabricksデータインテリジェンスプラットフォームは、SQLウェアハウス経由のSQLクエリと、ワークスペースクラスタリング経由のSQL、Python、Scalaワークロードという両方のタイプのワークロードをサポートします。
データサイエンス (ML モデリング) の場合、DatabricksAI および機械学習プラットフォームは、 MLAutoMLとML ジョブのコーディングに特化した ランタイムを提供します。すべてのデータサイエンスとMLOpsワークフローは、 MLflowによって最適にサポートされます。
サーブ
DWH と BI のユースケースでは、Databricks レイクハウスは、Databricks SQL と、SQL ウェアハウスを利用したデータウェアハウス、そしてサーバーレス SQL ウェアハウスを提供します。
分析
最終的なビジネスアプリケーションはこのスイムレーンにあります。例えば、レイクハウスから運用データベースにプッシュされたデータにアクセスするカスタムクライアントなどがあります。
BIのユースケースでは、アナリストは通常、BIツールを使用してデータウェアハウスにアクセスします。SQL開発者は、クエリやダッシュボード作成にDatabricks SQLエディタ(図には示されていません)を使用することもできます。
また、データインテリジェンスプラットフォームは、データを視覚化して知見を共有するためのダッシュボードも提供します。
ワークロードの機能
さらに、Databricksレイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。
データとAIのガバナンス
Databricks Data Intelligence Platformの中心となるデータおよびAIガバナンスシステムがUnity Catalogです。Unity Catalogは、すべてのワークスペースに適用されるデータアクセスポリシーを管理する単一の場所を提供し、テーブル、ボリューム、フィーチャー(Feature Store)、モデル(モデルレジストリ)など、レイクハウスで作成または使用されるすべてのアセットをサポートします。Unity Catalogは、Databricks上で実行されたクエリ間のランタイムデータリネージをキャプチャするためにも使用できます。
オブザーバビリティを確保するためのシステムテーブルは、Databricks がホストするアカウントの運用データの分析ストアです。システムテーブルは、アカウント全体の履歴の確認に使用できます。
データインテリジェンスエンジン
Databricks Data Intelligence Platformは、組織全体でデータとAIを活用することを可能にします。DatabricksIQを搭載し、生成AIとレイクハウスの統合の利点を組み合わせて、データのユニークなセマンティクスを理解します。
Databricks Assistantは、開発者向けのコンテキスト認識AIアシスタントとして、Databricksノートブック、SQLエディター、およびファイルエディターで利用できます。
オーケストレーション
Databricksジョブは、 Databricks Data Intelligence Platform 上のデータ処理、機械学習、アナリティクス パイプラインを調整します。 Delta Live Tables を使用すると、宣言型構文を使用して信頼性が高く保守可能な ETL パイプラインを構築できます。
Google Cloudのデータインテリジェンスプラットフォームのリファレンスアーキテクチャ
ダウンロード:GCP上のDatabricksレイクハウスのリファレンスアーキテクチャ
GCPのリファレンスアーキテクチャには、取り込み、ストレージ、サーブ、分析/出力に関する次のGCP固有のサービスが示されています。
レイクハウスフェデレーションのソースシステムとしてのBigQuery
ストリーミング取り込み用のPub/Subとデータストリーム
バッチ取り込み用のCクラウドフュージョンとストレージ転送サービス
オブジェクトストレージとしてのクラウドストレージ
運用データベースとしてのCloud Big Table、Cloud SQL、Data Store
BIツールとしてのLooker
注:
このリファレンスアーキテクチャのビューでは、Google CloudサービスとDatabricksレイクハウスにのみ焦点を当てています。Databricksのレイクハウスは、パートナーツールの大規模なエコシステムと統合するオープンプラットフォームです。
掲載されているクラウドプロバイダーのサービスは、すべてを網羅しているわけではありません。これらはコンセプトを説明するために選ばれたものです。
ユースケース:バッチETL
ダウンロード:Databricks on Google CloudのバッチETLリファレンスアーキテクチャ
インジェスト ツールは、ソース固有のアダプターを使用してソースからデータを読み取り、 Auto Loaderが読み取ることができるクラウド上のストレージに保存するか、 Databricksを直接呼び出します (たとえば、 Databricksレイクハウスに統合されたパートナー インジェスト ツールを使用します)。 データをロードするために、Databricks ETL および処理エンジンは DLT を介してクエリを実行します。 シングルタスクまたはマルチタスクのワークフローは、 Databricksジョブによって調整され、 Unity Catalog (アクセス制御、監査、リネージなど) によって管理できます。 低レイテンシの運用システムが特定のゴールデン テーブルにアクセスする必要がある場合は、ETL パイプラインの最後にある RDBMS やキー値ストアなどの運用データベースにエクスポートできます。
ユースケース:ストリーミングと変更データキャプチャ(CDC)
ダウンロード:Databricks on Google CloudのSpark構造化ストリーミングアーキテクチャ
Databricks ETLエンジンは、Spark構造化ストリーミングを使用して、Apache KafkaやPub/Subなどのイベントキューから読み取ります。下流のステップは、上記のバッチのユースケースのアプローチに従います。
リアルタイム変更データキャプチャ(CDC)は通常、イベントキューを使用して抽出されたイベントを保存します。そこから、ユースケースはストリーミングのユースケースに従います。
CDCがバッチで実行され、ずクラウドストレージに保存される場合、Databricks Autoloaderはそれらを読み込むことができ、ユースケースはバッチETLに従います。
ユースケース:機械学習とAI
ダウンロード:Databricks on Google Cloudの機械学習およびAIリファレンスアーキテクチャ
機械学習のために、Databricks Data Intelligence Platformは、最先端の機械学習とディープラーニングのライブラリを備えたMosaic AIを提供します。これは、Feature Storeやモデルレジストリ(いずれもUnity Catalogに統合)、AutoMLによるローコード機能、データサイエンスライフサイクルへのMLflow統合などの機能を提供します。
すべてのデータサイエンス関連の資産 (テーブル、機能、モデル) はUnity Catalogによって管理され、 data scientists Databricksジョブを使用してジョブを調整できます。
ユースケース:BIとSQL分析
ダウンロード:Databricks on Google CloudのBIおよびSQLアナリティクスのリファレンスアーキテクチャ
BIのユースケースでは、ビジネスアナリストはDatabricks SQLエディターか、TableauやLookerなどの特定のBIツールを使用できます。どちらの場合も、エンジンはDatabricks SQL(サーバレスまたは非サーバレス)であり、データディスカバリー、探索、アクセス制御はUnity Catalogによって提供されます。
ユースケース:レイクハウスフェデレーション
ダウンロード: Databricks on Google Cloudのレイクハウスフェデレーションリファレンスアーキテクチャ
レイクハウスフェデレーションでは、外部のデータSQLデータベース(MySQLやPostgresなど)をDatabricksと統合できます。
最初にデータをオブジェクトストレージにETLする必要がなく、すべてのワークロード (AI、DWH、BI) がこのメリットを享受できます。外部ソースカタログはUnity Catalogにマッピングされ、Databricksプラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。
ユースケース:エンタープライズデータ共有
ダウンロード:Databricks on Google Cloudのエンタープライズデータ共有リファレンスアーキテクチャ
エンタープライズグレードのデータ共有は、Delta Sharingによって提供されます。Unity Catalogで保護されたオブジェクトストア内のデータに直接アクセスでき、Databricks Marketplaceはデータ製品を交換するためのオープンフォーラムです。