レイクハウスプラットフォームの範囲

最新のデータおよび AI プラットフォーム フレームワーク

Databricks データ インテリジェンス プラットフォームの範囲について議論するには、まず最新のデータおよび AI プラットフォームの基本フレームワークを定義することが役立ちます。

クラウドデータ分析フレームワーク

レイクハウスのスコープの概要

Databricks Data Intelligence Platform は、最新のデータ プラットフォーム フレームワークを完全にカバーします。 これはレイクハウス アーキテクチャに基づいて構築されており、データの固有の性質を理解するデータ インテリジェンス エンジンを搭載しています。 これは、ETL、機械学習/AI、DWH/BI ワークロードのためのオープンで統合された基盤であり、中央のデータおよび AI ガバナンス ソリューションとして Unity Catalog を提供します。

プラットフォームフレームワークのペルソナ

このフレームワークは、フレームワーク内のアプリケーションを操作する主要なデータチームメンバー(ペルソナ)をカバーしています。

  • データ エンジニアは、タイムリーな意思決定とリアルタイムの知識のために、データ サイエンティストやビジネス アナリストに正確で再現可能なデータを提供します。 一貫性と信頼性の高い ETL プロセスを実装して、データに対するユーザーの信頼性と信頼性を高めます。 データがビジネスのさまざまな柱と適切に統合されていることを保証し、通常はソフトウェア エンジニアリングのベスト プラクティスに従っています。

  • データサイエンティストは分析専門知識とビジネス理解を融合させて、データを戦略的知見と予測モデルに変換します。 彼らは、遡及的な分析知識や将来を見据えた予測モデリングを通じて、ビジネスの課題をデータドリブン ソリューションに変換することに熟達しています。 データ モデリングと機械学習の手法を活用して、データからパターン、傾向、予測を明らかにするモデルを設計、開発、展開します。 これらは橋渡しの役割を果たし、複雑なデータの物語をわかりやすいストーリーに変換し、ビジネス関係者がデータドリブンの推奨事項を理解するだけでなく、それに基づいて行動できるようにし、組織内の問題解決に対するデータ中心のアプローチを推進します。

  • 機械学習エンジニア(機械学習エンジニア) は、機械学習モデルの構築、展開、保守によって、製品やソリューションにおけるデータサイエンスの実用化を主導します。 彼らの主な焦点は、モデルの開発と展開のエンジニアリング面に向けられています。 機械学習エンジニアは、実際の環境で機械学習システムの堅牢性、信頼性、スケーラビリティを確保し、データの品質、インフラストラクチャ、パフォーマンスに関する課題に対処します。 AI と機械学習モデルを運用ビジネス プロセスとユーザー向け製品に統合することにより、ビジネス課題の解決におけるデータサイエンスの活用が促進され、モデルが研究に留まらず、具体的なビジネス価値を推進できるようになります。

  • ビジネスアナリストは、実用的なデータで利害関係者とビジネス チームに力を与えます。 彼らは多くの場合、標準の BI ツールを使用して、データを解釈し、リーダー向けのレポートやその他の文書を作成します。 彼らは通常、技術者以外のビジネスや運用の同僚が分析に関する質問をすばやく行うための頼りになる連絡先です。

  • ビジネスパートナーは、ネットワーク化が進むビジネスの世界において重要な利害関係者です。 これらは、企業が共通の目標を達成するために正式な関係を結んでいる企業または個人として定義され、ベンダー、サプライヤー、ディストリビューター、その他のサードパーティ パートナーが含まれる場合があります。 データ共有は、データの転送と交換を可能にしてコラボレーションとデータドリブンの意思決定を強化するため、ビジネス パートナーシップの重要な側面です。

プラットフォームフレームワークのドメイン

プラットフォームは複数のドメインで構成されています。

  • ストレージ:クラウドでは、データは主に、クラウド プロバイダーが提供する、スケーラブルで効率的かつ復元力のあるクラウド オブジェクト ストレージに保存されます。

  • ガバナンス:データガバナンスに関する機能、例: すべてのデータと AI 資産のアクセス制御、監査、メタデータ管理、リネージ追跡、モニタリング。

  • AI エンジン: AI エンジンは、プラットフォーム全体に AI 生成機能を提供します。

  • 取り込みと変換ETL ワークロードの機能。

  • 高度なアナリティクス、機械学習、AI 機械学習、AI、生成 AI、ストリーミング分析に関するすべての機能。

  • データウェアハウスDWH および BI のユースケースをサポートするドメイン。

  • 集中ワークフロー管理のためのオーケストレーションドメインと

  • ETL および DS ツール:データ エンジニア、データ サイエンティスト、機械学習エンジニアが主に仕事で使用するフロントエンド ツール。

  • BI ツール: BI アナリストが主に業務で使用するフロントエンド ツール。

  • コラボレーション: 2 つ以上の当事者間でデータを共有する機能。

Databricks プラットフォームの範囲

Databricks Data Intelligence Platform とそのコンポーネントは、次の方法でフレームワークにマッピングできます。

レイクハウスの範囲

ダウンロード: レイクハウスの範囲 - Databricks コンポーネント

最も重要なのは、Databricks Data Intelligence Platform は、 Apache Spark / Photonをエンジンとして使用し、データ ドメインに関連するすべてのワークロードを 1 つのプラットフォームでカバーしていることです。

  • インジェストと変換

    データ取り込みの場合、 Auto Loader は、状態情報を管理することなく、スケジュールされたジョブまたは継続的なジョブでクラウド ストレージに配置されたファイルを増分的かつ自動的に処理します。 生データを取り込んだら、BI や機械学習/AI に使用できるように変換する必要があります。 Databricks は、データ エンジニア、データ サイエンティスト、アナリストに強力な ETL 機能を提供します。

    Delta Live Tables (DLT) を使用すると、ETL ジョブを宣言的な方法で作成できるため、実装プロセス全体が簡素化されます。 データ品質は、 データの期待値を定義することで改善できます。

  • 高度な分析、機械学習、AI

    このプラットフォームには、 従来のマシンおよびディープラーニングだけ でなく、 生成 Databricks Mosaic AIAI および大規模言語モデル (LLM) 用の完全に統合された機械学習および AI ツールのセットである が付属しています。データの準備から 機械学習ディープラーニングモデルの構築、モデルサービングまでのワークフロー全体をカバーします。

    Spark 構造化ストリーミングDLT により、リアルタイムの分析が可能になります。

  • データウェアハウス

    Databricks Data Intelligence Platform は、 Databricks SQLを備えた完全なデータウェアハウス ソリューションも提供します。これは、きめ細かいアクセス制御を備えたUnity Catalogによって一元管理されます。

Databricks Data Intelligence Platform の機能をフレームワークの他のレイヤーに下から上にマッピングします。

  • クラウドストレージ

    レイクハウスのすべてのデータはクラウド上でプロバイダーのオブジェクト ストレージに保存されます。 Databricks は、AWS、Azure、GCP の 3 つのクラウド プロバイダーをサポートしています。 さまざまな構造化および半構造化形式 (Parquet、CSV、JSON、Avro など) だけでなく非構造化形式 (画像など) のファイルも、バッチまたはストリーミング プロセスを使用して取り込まれ、変換されます。

    Delta Lakeはレイクハウスに推奨されるデータ形式 (ファイル トランザクション、信頼性、一貫性、更新など) であり、ロックインを避けるために完全にオープンソースです。 また、 Delta Universal Format (UniForm) を使用すると、 Iceberg リーダー クライアントで Delta テーブルを読み取ることができます。

    Databricks Data Intelligence Platform では独自のデータ形式は使用されません。

  • データガバナンス

    Unity Catalog は、ストレージ層の上に、メタストアでのメタデータ管理アクセス制御監査、データ水平データリネージなどの幅広いデータガバナンス機能を提供します。

    外部 SQL ソースは、Unity Catalog レイクハウス フェデレーション を通じてレイクハウスと に統合できます。

  • AIエンジン

    データ インテリジェンス プラットフォームは、レイクハウス アーキテクチャに基づいて構築され、データ インテリジェンス エンジンDatabricksIQによって強化されています。 DatabricksIQ は、生成 AI とレイクハウス アーキテクチャの統合メリットを組み合わせて、データの固有のセマンティクスを理解します。 Intelligent Search とDatabricks Assistant は、すべてのユーザーのプラットフォームでの作業を簡素化する AI を活用したサービスの例です。

  • オーケストレーション

    Databricks Workflowsあらゆるクラウド上でデータと AI のライフサイクル全体の多様なワークロードを実行できます。 これらを使用すると、SQL、Spark、ノートブック、DBT、機械学習モデルなどのジョブだけでなく、 Delta Live Tablesも調整できます。

  • ETL および DS ツール

    消費層では、データ エンジニアと機械学習エンジニアは通常、 IDEs使用してプラットフォームを操作します。 データ サイエンティストはノートブックを好むことが多く、機械学習と AI ランタイム、および機械学習ワークフロー システムMLflowを使用してエクスペリメントを追跡し、モデルのライフサイクルを管理します。

  • BIツール

    ビジネス アナリストは通常、好みの BI ツールを使用して Databricks データウェアハウスにアクセスします。 Databricks SQL はさまざまな分析ツールや BI ツールでクエリできます。 「BI と視覚化」を参照してください。

    さらに、このプラットフォームには、すぐに使用できるクエリおよび分析ツールが用意されています。

  • コラボレーション

    Delta Sharing使用するコンピューティング プラットフォームに関係なく、他の組織と安全にデータを共有するために Databricks によって開発されたオープン プロトコルです。

    Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。 Delta Sharingを利用して、データ プロバイダーにはデータ製品を安全に共有するためのツールが提供され、データ利用者には必要なデータとデータ サービスへのアクセスを探索および拡張するための機能が提供されます。