レイクハウスプラットフォームのスコープ
最新のデータとAIプラットフォームフレームワーク
Databricksデータインテリジェンスプラットフォームの範囲について説明するには、まず最新のデータおよびAIプラットフォームの基本的なフレームワークを定義すると役立ちます。
レイクハウススコープの概要
Databricksデータインテリジェンスプラットフォームは、最新のデータプラットフォームフレームワークに完全対応しています。レイクハウス上に構築されており、データの独自性を理解するためのデータインテリジェンスエンジンを搭載しています。これは、ETL、ML/AI、DWH/BIワークロード向けのオープンで統合された基盤であり、Unity Catalogを一元化データおよびAIガバナンスソリューションとして備えています。
プラットフォームフレームワークのペルソナ
このフレームワークは、フレームワーク内のアプリケーションを扱う主要なデータチームメンバー(ペルソナ)を対象としています。
データエンジニアは、データサイエンティストやビジネスアナリストに正確で再現性のあるデータを提供し、タイムリーな意思決定を行い、リアルタイムの知見が得られるようにします。一貫性と信頼性の高いETLプロセスを導入することで、データに対するユーザーの信頼と信用を高めています。データがビジネスのさまざまな柱とうまく統合されていることを確認し、通常はソフトウェアエンジニアリングのベストプラクティスに従います。
データサイエンティストは、分析の専門知識とビジネスの理解を組み合わせて、データを戦略的知見と予測モデルに変換します。彼らは、遡及的な分析的知見や将来を見据えた予測モデリングなどを通じて、ビジネス上の課題をデータ主導のソリューションに変換することに長けています。データモデリングと機械学習技術を活用して、データからパターン、傾向、予測を明らかにするモデルを設計、開発、展開します。これらは橋渡しの役割を果たし、複雑なデータの物語をわかりやすいストーリーに変換します。これにより、ビジネス関係者はデータに基づく推奨事項を理解するだけでなく、それに基づいて行動できるようになります。その結果、組織内の問題解決に対するデータ中心のアプローチが推進されます。
機械学習エンジニア(機械学習エンジニア)は、機械学習モデルの構築や、デプロイ、メンテナンスを通じて、製品やソリューションにおけるデータサイエンスの実用化をリードします。彼らは、モデル開発と展開のエンジニアリングの側面に主な焦点を当てています。機械学習エンジニアは、実環境における機械学習システムの堅牢性、信頼性、拡張性を確保し、データ品質、インフラ、パフォーマンスに関する課題に取り組みます。AIや機械学習モデルを業務プロセスやユーザー向け製品に統合することで、ビジネス課題の解決におけるデータサイエンスの活用を促進し、モデルが研究だけにとどまることなく、具体的なビジネス価値をもたらすことを保証します。
ビジネスアナリストは、関係者とビジネスチームに実用的なデータを提供します。 多くの場合、標準的なBIツールを使用してデータを解釈し、リーダー向けのレポートやその他の文書を作成します。彼らは通常、技術に詳しくないビジネスおよび運用部門の同僚が分析に関する簡単な質問をする場合の連絡先となります。
ネットワーク化が進むビジネス界において、ビジネスパートナーは重要なステークホルダーです。ビジネスパートナーとは、共通の目標を達成するために企業が正式な関係を持つ企業または個人と定義されます。これにはベンダー、サプライヤー、代理店、その他の第三者パートナーが含まれます。データ共有はビジネスパートナーシップの重要な側面です。データの転送と交換を可能にすることで、コラボレーションとデータドリブンの意思決定が強化されます。
プラットフォームフレームワークのドメイン
プラットフォームは複数のドメインで構成されています。
ストレージ:クラウドでは、データは主に、クラウドプロバイダー上の、スケーラブルで効率的かつ復元力のあるオブジェクトストレージに保存されます。
ガバナンス:すべてのデータおよびAI資産のアクセス制御、監査、メタデータ管理、リネージトラッキング、モニタリングなど、データガバナンスに関する機能です。
AIエンジン:AIエンジンは、プラットフォーム全体に生成AI機能を提供します。
取り込みと変換: ETL ワークロードの機能。
高度なアナリティクス、 ML 、 AI :機械学習、 AI 、ストリーミング分析に関するすべての機能。
データウェアハウス: DWH およびBIユースケースをサポートするドメイン。
オーケストレーション:データ処理、機械学習、アナリティクス パイプラインの集中ワークフロー管理。
ETL & DSツール:データエンジニアや、データサイエンティスト、機械学習エンジニアが主に業務で使用するフロントエンドツール。
BIツール:BIアナリストが主に仕事に使用するフロントエンドツール。
コラボレーション:2人以上の関係者間でデータを共有する機能。
Databricksプラットフォームのスコープ
Databricks Data Intelligence Platformとそのコンポーネントは、次のようにフレームワークにマッピングできます。
ダウンロード:レイクハウスのスコープ - Databricksコンポーネント
Databricks上のデータワークロード
最も重要なことは、Databricks Data Intelligence Platformが、Apache Spark/Photonをエンジンとして、データ領域に関連するすべてのワークロードを1つのプラットフォームでカバーすることです。
取り込みと変換
データのインジェストの場合、Auto Loaderは、スケジュールされたジョブまたは継続的なジョブでクラウドストレージにあるファイルを段階的かつ自動的に処理するため、情報を管理する必要はありません。一度取り込まれた生データは、BIやML/AIに対応できるように変換する必要があります。Databricksは、データエンジニア、データサイエンティスト、アナリストのための強力なETL機能を提供します。
Delta Live Tables(DLT) は、ETLジョブを宣言的な方法で記述することを可能にし、実装プロセス全体を簡素化します。データ品質は、データの期待値を定義することで改善できます。
高度な分析、ML、AI
このプラットフォームには、Databricks Mosaic AI AIクラシックマシンとディープラーニング 用の完全に統合された機械学習および ツールのセットである が含まれています。データの準備から機械学習モデルやディープラーニングモデルの構築まで、ワークフロー全体をカバーしています。
Spark構造化ストリーミングとDLTにより、リアルタイムの分析が可能になります。
データウェアハウス
Databricksデータインテリジェンスプラットフォームには、Databricks SQLを備えた完全なデータウェアハウスソリューションもあります。これはUnity Catalogで一元管理され、きめ細かなアクセス制御が可能です。
Databricksの機能領域の概要
これは、Databricksデータインテリジェンスプラットフォームの機能を、フレームワークの他のレイヤーに下から上にマッピングしたものです。
クラウドストレージ
レイクハウスのすべてのデータは、クラウド上のオブジェクトストレージに保存されます。Databricksは、AWS、Azure、GCPの3つのクラウドプロバイダーをサポートしています。さまざまな構造化形式および半構造化形式(Parquet、CSV、JSON、Avroなど)と非構造化形式(画像やドキュメントなど)のファイルは、バッチプロセスまたはストリーミングプロセスを使用して取り込まれ、変換されます。
Delta Lakeは、レイクハウス(ファイルトランザクション、信頼性、一貫性、更新など)のための推奨データフォーマットであり、ロックインを避けるための完全なオープンソースです。また、Deltaユニバーサルフォーマット(UniForm)により、IcebergリーダークライアントでDeltaテーブルを読み取ることができます。
Databricks データインテリジェンスプラットフォームでは、独自のデータ形式は使用されていません。
データガバナンス
Unity Catalogは、ストレージレイヤーの上に、メタストアでのメタデータ管理、アクセス制御、監査、データディスカバリー、データリネージなど、幅広いデータガバナンス機能を提供します。
外部SQLソースは、レイクハウスフェデレーションを通じてレイクハウスとUnity Catalogに統合できます。
AIエンジン
データ インテリジェンス プラットフォームは、レイクハウス アーキテクチャ上に構築され、データ インテリジェンス エンジンDatabricksIQによって強化されています。 DatabricksIQ 、生成AIとレイクハウス アーキテクチャの統合の利点を組み合わせて、データの固有のセマンティクスを理解します。 Intelligent Search とDatabricks Assistant は、すべてのユーザーのプラットフォーム操作を簡素化する AI 搭載サービスの例です。
オーケストレーション
Databricks ジョブを使用すると、あらゆるクラウドでデータと AI のライフサイクル全体にわたって多様なワークロードを実行できます。 これらを使用すると、SQL、Spark、ノートブック、DBT、ML モデルなどの Delta Live Tables だけでなくジョブもオーケストレーションできます。
ETL & DSツール
消費レイヤーでは、データエンジニアとMLエンジニアは通常、IDEsを使ってプラットフォームと連携します。データサイエンティストはノートブックを好み、ML & AIランタイムや機械学習ワークフローシステムMLflowを使用して実験を追跡し、モデルのライフサイクルを管理します。
BIツール
ビジネスアナリストは通常、好みのBIツールを使用してDatabricksデータウェアハウスにアクセスします。Databricks SQLは、さまざまな分析ツールとBIツールでクエリを実行できます。詳細については、「BIとビジュアライゼーション」を参照してください。
さらに、このプラットフォームではクエリーと分析ツールをすぐに利用できます。
コラボレーション
Delta Sharingは、使用するコンピューティングプラットフォームに関係なく、他の組織と安全なデータ共有を行うために、Databricksによって開発されたオープンプロトコルです。
Databricks Marketplaceは、データ製品を交換するためのオープンフォーラムです。Delta Sharingを活用することで、データプロバイダーには、データ製品を安全に共有するためのツールを、データコンシューマーには、必要なデータやデータサービスを探したり、利用したりするための機会を提供します。