レイクハウスのリファレンス アーキテクチャをダウンロードする

この記事では、データ ソース、取り込み、変換、クエリと処理、提供、分析/出力、ストレージに関するレイクハウスのアーキテクチャ ガイダンスについて説明します。

各リファレンス・アーキテクチャには、11 x 17 (A3) 形式のダウンロード可能な PDF があります。

参照アーキテクチャの構成

リファレンス アーキテクチャは、ソース取り込み変換クエリと処理提供分析、およびストレージのスイム レーンに沿って構造化されています。

  • ソース

    このアーキテクチャでは、半構造化データと非構造化データ (センサーと IoT、メディア、ファイル/ログ) と構造化データ (RDBMS、ビジネス アプリケーション) が区別されます。 SQL ソース (RDBMS) は、 レイクハウス フェデレーションUnity Catalog を通じて ETL なしでレイクハウスと に統合することもできます。さらに、データは他のクラウド プロバイダーからロードされる場合があります。

  • 取り込み

    データはバッチまたはストリーミング経由でレイクハウスに取り込むことができます。

    • クラウド ストレージに配信されたファイルは、Databricks Auto Loaderを使用して直接ロードできます。

    • エンタープライズ アプリケーションからDelta Lakeへのデータのバッチ取り込みの場合、 Databricks レイクハウスは、これらの記録システム用の特定のアダプターを備えたパートナー取り込みツールに依存しています。

    • ストリーミング イベントは、Databricks構造化ストリーミングを使用して、Kafka などのイベント ストリーミング システムから直接取り込むことができます。 ストリーミング ソースは、センサー、IoT、または変更データ キャプチャプロセスです。

  • ストレージ

    通常、データはクラウド上のストレージ システムに保存されます。ETL パイプラインはメダリオンアーキテクチャを使用して、データをDeltaファイル/テーブルとして厳選された方法で保存します。

  • 変換クエリと処理

    Databricks レイクハウスは、すべての変換とクエリにエンジンApache SparkPhotonを使用します。

    宣言型フレームワーク DLT ( Delta Live Tables ) はそのシンプルさにより、信頼性が高く、保守可能で、テスト可能なデータ処理パイプラインを構築するのに適しています。

    Apache Spark と Photon を活用した Databricks Data Intelligence Platform は、 SQL ウェアハウスを介した SQL クエリと、ワークスペースクラスターを介した SQL、Python、Scala ワークロードの両方のタイプのワークロードをサポートします。

    データサイエンス (機械学習モデリングとGen AI ) の場合、Databricks AI および機械学習プラットフォームはAutoMLと機械学習ジョブのコーディングに特化した機械学習ランタイムを提供します。 すべてのデータサイエンスおよびMLOps ワークフローはMLflowによって最適にサポートされます。

  • 提供

    DWH および BI のユースケースでは、Databricks Lakehouse がDatabricks SQL SQL ウェアハウス を利用したデータウェアハウスである を提供します。

    運用データベース: 運用データベースなどの外部システムを使用して、最終データ製品を保存し、ユーザー アプリケーションに配信できます。

    コラボレーション: ビジネス パートナーは、 Delta Sharingを通じて必要なデータに安全にアクセスできます。 Delta Sharingに基づいたDatabricks Marketplace 、データ製品を交換するためのオープン フォーラムです。

  • 分析

    最終的なビジネスアプリケーションは、このスイムレーンにあります。 例には、レイクハウスから運用データベースにプッシュされたデータにアクセスするカスタム クライアントが含まれます。

    BI のユースケースでは、アナリストは通常、 BI ツールを使用してデータウェアハウスにアクセスします。 SQL 開発者は、クエリとダッシュボードにDatabricks SQL エディター(図には示されていません) をさらに使用できます。

ワークロードの機能

さらに、Databricks レイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。

  • データとAIのガバナンス

    Databricks Data Intelligence Platform の中心となるデータおよび AI ガバナンス システムはUnity Catalogです。 Unity Catalogすべてのワークスペースに適用されるデータ アクセス ポリシーを管理する単一の場所を提供し、テーブル、ボリューム、機能 (Feature Store )、モデル (モデルレジストリ) など、レイクハウスで作成または使用されるすべてのアセットをサポートします。 Unity Catalog を使用して、Databricks で実行されるクエリ全体でランタイム データ リネージをキャプチャすることもできます。

  • データインテリジェンスエンジン

    Databricks Data Intelligence Platform を使用すると、組織全体でデータと AI を使用できるようになります。 DatabricksIQを利用しており、生成 AI とレイクハウスの統合メリットを組み合わせて、データの固有のセマンティクスを理解します。

    Databricks アシスタントは、開発者向けのコンテキスト認識 AI アシスタントとして、Databricks ノートブック、SQL エディター、およびファイル エディターで利用できます。

  • オーケストレーション

    Databricks Workflows Databricks Data Intelligence Platform のデータ処理、機械学習、アナリティクス パイプラインを調整します。 ワークフローには、Databricks ワークスペースで非対話型コードを実行するDatabricks ジョブや、信頼性が高く保守可能な ETL パイプラインを構築するDelta Live Tablesなど、Databricks プラットフォームに統合されたフルマネージド オーケストレーション サービスがあります。

Google クラウド上のデータ インテリジェンス プラットフォームのリファレンス アーキテクチャ

GCP リファレンス アーキテクチャは、ソース、取り込み、提供、分析/出力、ストレージ要素に対する GCP 固有のサービスを追加することにより、汎用リファレンス アーキテクチャから派生しています。

Google クラウド上の Databricks レイクハウスのリファレンス アーキテクチャ

ダウンロード: GCP 上の Databricks レイクハウスのリファレンス アーキテクチャ

GCP リファレンス アーキテクチャには、取り込み、ストレージ、提供、分析/出力のための次の GCP 固有のサービスが示されています。

  • レイクハウスフェデレーションのソース システムとしての BigQuery

  • ストリーミング取り込みのための Pub/Sub とデータストリーム

  • バッチ取り込みのための Cloud Fusion および Storage Transfer サービス

  • オブジェクトストレージとしてのクラウドストレージ

  • 運用データベースとしてのクラウド Big Table、クラウド SQL、およびデータ ストア

  • BI ツールとしての Looker

注:

  • このリファレンス アーキテクチャのビューは、Google クラウド サービスと Databricks レイクハウスのみに焦点を当てています。 Databricks のレイクハウスは、パートナー ツールの大規模なエコシステムと統合されるオープン プラットフォームです。

  • 示されているクラウド プロバイダー サービスはすべてを網羅しているわけではありません。 これらは、概念を説明するために選択されます。

使用例: バッチ ETL

GCP 上の Databricks でのバッチ ETL のリファレンス アーキテクチャ

ダウンロード: Databricks on Google Cloudのバッチ ETL リファレンス アーキテクチャ

取り込みツールは、ソース固有のアダプターを使用してソースからデータを読み取り、Auto Loader がそれを読み取ることができるクラウド上のストレージに保存するか、Databricks を直接呼び出します (たとえば、Databricks レイクハウスに統合されたパートナー取り込みツールを使用します)。 データをロードするために、Databricks ETL と処理エンジンが DLT 経由でクエリを実行します。 単一タスクまたはマルチタスクのジョブは、Databricks ワークフローによって調整され、 Unity Catalog (アクセス制御、監査、リネージなど) によって管理できます。 低レイテンシーの運用システムが特定のゴールデン テーブルにアクセスする必要がある場合、ETL パイプラインの最後にある RDBMS やキー/値ストアなどの運用データベースにエクスポートできます。

使用例: ストリーミングと変更データキャプチャ (CDC)

Databricks on Google Cloud向けの Spark 構造化ストリーミング アーキテクチャ

ダウンロード: Databricks on Google Cloud用の Spark 構造化ストリーミング アーキテクチャ

Databricks ETL エンジンは、Spark 構造化ストリーミングを使用して、Apache Kafka や Pub/Sub などのイベント キューから読み取ります。 下流のステップは、上記のバッチ使用例のアプローチに従います。

リアルタイム チェンジデータ キャプチャ (CDC) は通常、イベント キューを使用して、抽出されたイベントを保存します。 そこから、ユースケースはストリーミングのユースケースに従います。

CDC がバッチで実行され、抽出されたレコードが最初にクラウド ストレージに保存される場合、Databricks Autoloader はそれらを読み取ることができ、ユースケースはバッチ ETL に従います。

ユースケース: 機械学習と AI

Databricks on Google Cloudの機械学習と AI リファレンス アーキテクチャ

ダウンロード: Databricks on Google Cloudの機械学習と AI リファレンス アーキテクチャ

機械学習用に、Databricks Data Intelligence Platform は、最先端のマシンとディープラーニング ライブラリを備えた Mosaic AI を提供します。 これは、Feature Store やモデル レジストリ (両方とも Unity Catalog に統合)、AutoML によるローコード機能、データ サイエンス ライフサイクルへの MLflow 統合などの機能を提供します。

すべてのデータサイエンス関連の資産 (テーブル、機能、モデル) は Unity Catalog によって管理され、データサイエンティストはDatabricks Workflowsを使用してジョブを調整できます。

ユースケース: BI と SQL アナリティクス

Databricks on Google Cloudの BI および SQL アナリティクス リファレンス アーキテクチャ

ダウンロード: Databricks on Google Cloudの BI および SQL アナリティクス リファレンス アーキテクチャ

BI のユースケースの場合、ビジネス アナリストは Databricks SQL エディターまたは Tableau や Looker などの特定の BI ツールを使用できます。 どちらの場合も、エンジンは Databricks SQL (サーバーレスまたは非サーバーレス) であり、データベース、探索、およびアクセス制御は Unity Catalog によって提供されます。

使用例: レイクハウス フェデレーション

Databricks on Google Cloudのレイクハウス フェデレーション リファレンス アーキテクチャ

ダウンロード: Databricks on Google Cloud向けレイクハウス フェデレーション リファレンス アーキテクチャ

レイクハウス フェデレーションを使用すると、外部データ SQL データベース (MySQL や Postgres など) を Databricks と統合できます。

最初にデータをオブジェクト ストレージに ETL する必要がなく、すべてのワークロード (AI、DWH、BI) がこのメリットを享受できます。 外部ソース カタログは Unity Catalogにマッピングされ、Databricks プラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。

ユースケース: エンタープライズデータ共有

GCP 上の Databricks のエンタープライズ データ共有リファレンス アーキテクチャ

ダウンロード: Databricks on Google Cloudのエンタープライズ データ共有リファレンス アーキテクチャ

エンタープライズ グレードのデータ共有は、 Delta Sharingによって提供されます。 これは、Unity Catalog によって保護されたオブジェクト ストア内のデータへの直接アクセスを提供します。Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。