レイクハウスプラットフォームのスコープ

レイクハウススコープの概要

Databricksデータインテリジェンスプラットフォームは、最新のデータプラットフォームフレームワークに完全対応しています。レイクハウス上に構築されており、データの独自性を理解するためのデータインテリジェンスエンジンを搭載しています。これは、ETL、ML/AI、DWH/BIワークロード向けのオープンで統合された基盤であり、Unity Catalogを一元化データおよびAIガバナンスソリューションとして備えています。

プラットフォームフレームワークのペルソナ

このフレームワークは、フレームワーク内のアプリケーションを扱う主要なデータチームメンバー（ペルソナ）を対象としています。

データエンジニアは、データサイエンティストやビジネスアナリストに正確で再現性のあるデータを提供し、タイムリーな意思決定を行い、リアルタイムの知見が得られるようにします。一貫性と信頼性の高いETLプロセスを導入することで、データに対するユーザーの信頼と信用を高めています。データがビジネスのさまざまな柱とうまく統合されていることを確認し、通常はソフトウェアエンジニアリングのベストプラクティスに従います。
データサイエンティストは、分析の専門知識とビジネスの理解を組み合わせて、データを戦略的知見と予測モデルに変換します。彼らは、遡及的な分析的知見や将来を見据えた予測モデリングなどを通じて、ビジネス上の課題をデータ主導のソリューションに変換することに長けています。データモデリングと機械学習技術を活用して、データからパターン、傾向、予測を明らかにするモデルを設計、開発、展開します。これらは橋渡しの役割を果たし、複雑なデータの物語をわかりやすいストーリーに変換します。これにより、ビジネス関係者はデータに基づく推奨事項を理解するだけでなく、それに基づいて行動できるようになります。その結果、組織内の問題解決に対するデータ中心のアプローチが推進されます。
機械学習エンジニア（機械学習エンジニア）は、機械学習モデルの構築や、デプロイ、メンテナンスを通じて、製品やソリューションにおけるデータサイエンスの実用化をリードします。彼らは、モデル開発と展開のエンジニアリングの側面に主な焦点を当てています。機械学習エンジニアは、実環境における機械学習システムの堅牢性、信頼性、拡張性を確保し、データ品質、インフラ、パフォーマンスに関する課題に取り組みます。AIや機械学習モデルを業務プロセスやユーザー向け製品に統合することで、ビジネス課題の解決におけるデータサイエンスの活用を促進し、モデルが研究だけにとどまることなく、具体的なビジネス価値をもたらすことを保証します。
ビジネスアナリスト と ビジネスユーザー: ビジネスアナリストは、ステークホルダーとビジネスチームに実用的なデータを提供します。多くの場合、データを解釈し、標準のBIツールを使用して管理用のレポートやその他のドキュメントを作成します。通常、技術者以外のビジネスユーザーや運用担当者が分析に関する質問を迅速に行うための最初の窓口となります。 Databricksプラットフォーム上で提供されるダッシュボードとビジネスアプリは、ビジネスユーザーが直接使用できます。
ネットワーク化が進むビジネス界において、ビジネスパートナーは重要なステークホルダーです。ビジネスパートナーとは、共通の目標を達成するために企業が正式な関係を持つ企業または個人と定義されます。これにはベンダー、サプライヤー、代理店、その他の第三者パートナーが含まれます。データ共有はビジネスパートナーシップの重要な側面です。データの転送と交換を可能にすることで、コラボレーションとデータドリブンの意思決定が強化されます。

プラットフォームフレームワークのドメイン

プラットフォームは複数のドメインで構成されています。

ストレージ：クラウドでは、データは主に、クラウドプロバイダー上の、スケーラブルで効率的かつ復元力のあるオブジェクトストレージに保存されます。
ガバナンス：すべてのデータおよびAI資産のアクセス制御、監査、メタデータ管理、リネージトラッキング、モニタリングなど、データガバナンスに関する機能です。
AIエンジン：AIエンジンは、プラットフォーム全体に生成AI機能を提供します。
取り込みと変換: ETL ワークロードの機能。

高度なアナリティクス、 ML 、 AI :機械学習、 AI 、ストリーミング分析に関するすべての機能。

データウェアハウス: DWH およびBIユースケースをサポートするドメイン。
自動化: データ処理、機械学習、アナリティクスパイプライン ( CI/CD および MLOps のサポートを含む) のワークフロー管理。
ETL & DSツール：データエンジニアや、データサイエンティスト、機械学習エンジニアが主に業務で使用するフロントエンドツール。
BIツール：BIアナリストが主に仕事に使用するフロントエンドツール。
コラボレーション：2人以上の関係者間でデータを共有する機能。

Databricksプラットフォームのスコープ

Databricks Data Intelligence Platformとそのコンポーネントは、次のようにフレームワークにマッピングできます。

ダウンロード：レイクハウスのスコープ - Databricksコンポーネント

Databricks上のデータワークロード

最も重要なことは、Databricks Data Intelligence Platformが、Apache Spark/Photonをエンジンとして、データ領域に関連するすべてのワークロードを1つのプラットフォームでカバーすることです。

取り込みと変換

データのインジェストの場合、Auto Loaderは、スケジュールされたジョブまたは継続的なジョブでクラウドストレージにあるファイルを段階的かつ自動的に処理するため、情報を管理する必要はありません。一度取り込まれた生データは、BIやML/AIに対応できるように変換する必要があります。Databricksは、データエンジニア、データサイエンティスト、アナリストのための強力なETL機能を提供します。

Delta Live Tables (DLT) を使用すると、宣言的な方法でジョブETL書き込むことができ、実装プロセス全体が簡素化されます。データ品質は、データの期待値を定義することで改善できます。
高度な分析、ML、AI

このプラットフォームには、Databricks Mosaic AI AIクラシックマシンとディープラーニング用の完全に統合された機械学習およびツールのセットであるが含まれています。データの準備から機械学習モデルやディープラーニングモデルの構築、Mosaic AI Model Servingまでのワークフロー全体をカバーしています。

Spark構造化ストリーミングとDLTにより、リアルタイムの分析が可能になります。
データウェアハウス

Databricksデータインテリジェンスプラットフォームには、Databricks SQLを備えた完全なデータウェアハウスソリューションもあります。これはUnity Catalogで一元管理され、きめ細かなアクセス制御が可能です。

Databricksの機能領域の概要

これは、Databricksデータインテリジェンスプラットフォームの機能を、フレームワークの他のレイヤーに下から上にマッピングしたものです。

クラウドストレージ

レイクハウスのすべてのデータは、クラウド上でプロバイダーのオブジェクトストレージに保存されます。 Databricks は、AWS、Azure、GCP の 3 つのクラウドプロバイダーをサポートしています。さまざまな構造化形式および半構造化形式 ( Parquet、 CSV、 JSON、 Avroなど) のファイル、および非構造化形式 (画像やドキュメントなど) のファイルは、バッチプロセスまたはストリーミングプロセスを使用して取り込まれ、変換されます。

Delta Lakeは、レイクハウス（ファイルトランザクション、信頼性、一貫性、更新など）のための推奨データフォーマットであり、ロックインを避けるための完全なオープンソースです。また、Deltaユニバーサルフォーマット（UniForm）により、IcebergリーダークライアントでDeltaテーブルを読み取ることができます。

Databricks データインテリジェンスプラットフォームでは、独自のデータ形式は使用されていません。
データとAIのガバナンス

ストレージ層に加えて、は、メタストアでのUnity Catalog AIメタデータ管理、アクセス制御、監査、データディスカバリー、データリネージなど、幅広いデータとガバナンス機能を提供します。

外部SQLソースは、レイクハウスフェデレーションを通じてレイクハウスとUnity Catalogに統合できます。
AIエンジン

データインテリジェンスプラットフォームは、レイクハウスアーキテクチャ上に構築され、データインテリジェンスエンジンDatabricksIQによって強化されています。 DatabricksIQ 、生成AIとレイクハウスアーキテクチャの統合の利点を組み合わせて、データの固有のセマンティクスを理解します。 Intelligent Search とDatabricks Assistant は、すべてのユーザーのプラットフォーム操作を簡素化する AI 搭載サービスの例です。
オーケストレーション

Databricks ジョブを使用すると、あらゆるクラウドでデータと AI のライフサイクル全体にわたって多様なワークロードを実行できます。これらを使用すると、SQL、Spark、ノートブック、DBT、ML モデルなどの Delta Live Tables だけでなくジョブもオーケストレーションできます。

このプラットフォームは、CI/CD と MLOps もサポートしています
ETL & DSツール

消費レイヤーでは、データエンジニアとMLエンジニアは通常、IDEsを使ってプラットフォームと連携します。データサイエンティストはノートブックを好み、ML & AIランタイムや機械学習ワークフローシステムMLflowを使用して実験を追跡し、モデルのライフサイクルを管理します。
BIツール

ビジネスアナリストは通常、好みのBIツールを使用してDatabricksデータウェアハウスにアクセスします。Databricks SQLは、さまざまな分析ツールとBIツールでクエリを実行できます。詳細については、「BIとビジュアライゼーション」を参照してください。

さらに、このプラットフォームではクエリーと分析ツールをすぐに利用できます。
- AI/BIダッシュボードを使用して、データの視覚化をドラッグアンドドロップし、知見を共有します。
- データアナリストなどのドメイン専門家は、データセット、サンプルクエリ、テキストガイドラインを使用して AI/BI Genie spaces を構成し、ビジネス上の質問を分析クエリに Genie 変換するのに役立ちます。セットアップ後、ビジネスユーザーは質問をしたり、運用データを理解するための視覚化を生成したりできます。
- SQLアナリストがデータを分析するためのSQLエディター。
コラボレーション

Delta Sharingは、使用するコンピューティングプラットフォームに関係なく、他の組織と安全なデータ共有を行うために、Databricksによって開発されたオープンプロトコルです。

Databricks Marketplaceは、データ製品を交換するためのオープンフォーラムです。Delta Sharingを活用することで、データプロバイダーには、データ製品を安全に共有するためのツールを、データコンシューマーには、必要なデータやデータサービスを探したり、利用したりするための機会を提供します。