メダリオンレイクハウスアーキテクチャとは
メダリオンアーキテクチャは、レイクハウスに格納されているデータの品質を示す一連のデータレイヤーを表します。 Databricksでは、エンタープライズデータ製品の信頼できる唯一の情報源を構築するために、多層アプローチを採用することをお勧めします。 このアーキテクチャでは、データを効率的なアナリティクス用に最適化されたレイアウトに格納される前に、検証と変換の複数のレイヤーを通過させることで、原子性、独立性、分離性、および耐久性を保証します。 ブロンズ (生)、シルバー (検証済み)、および ゴールド (補強) という用語は、これらの各レイヤーのデータの品質を表します。
このメダリオンアーキテクチャは、他の次元モデリング技術に取って代わるものではない点に留意することが重要です。各レイヤー内のスキーマやテーブルは、データの更新頻度や性質、データのダウンストリームにおけるユースケースに応じて、形式や正規化の度合いが異なります。
Databricksレイクハウスを活用することにより、組織は社内全体でアクセスできる検証済みのデータセットを作成し、維持できます。データをプロダクトとして収集することに重点を置くような組織的な考え方を採用することは、データレイクハウスの構築を成功させるための重要なステップです。
生データをブロンズレイヤーに取り込む
ブロンズレイヤーには未検証のデータが含まれています。ブロンズレイヤーに取り込まれるデータは通常、次のように動作します。
データソースの生(raw)の状態を維持します。
増分的に追加され、時間の経過と共に大きくなります。
ストリーミング・トランザクションとバッチ・トランザクションのあらゆる組み合わせが可能です。
各データセットの未処理の全履歴を効率的なストレージ形式で保持すると、特定のデータシステムのあらゆる状態を再現できるようになります。
追加のメタデータ(ソースファイル名やデータが処理された時刻の記録など)を取り込み時にデータに追加することで、発見可能性の向上、ソースデータセットの状態の説明、およびダウンストリームアプリケーションでのパフォーマンスの最適化を図ることができます。
シルバーレイヤーのデータを検証して重複排除する
ブロンズレイヤーはデータ履歴全体をほぼ未処理の状態で含むのに対し、シルバーレイヤーは検証済みの補強されたデータを表します。これはダウンストリーム分析においても信頼できるデータであることに留意してください。
Databricksは、ブロンズ、シルバー、ゴールドテーブルによって導かれるレイクハウスのビジョンを強く信じていますが、シルバーレイヤーを効率的に実装するだけで、レイクハウスの潜在的なメリットの多くをすぐに引き出すことができます。
どのデータパイプラインにおいても、シルバーレイヤーには複数のテーブルが含まれることがあります。
ゴールドレイヤーを使用して高度な分析を行う
このゴールドデータは、高度に精製・集約されていることが多く、アナリティクス、機械学習、プロダクション・アプリケーションの原動力となるデータを含んでいます。レイクハウス内のすべてのテーブルには果たすべき重要な目的があります。ゴールドテーブルの場合、単なる情報ではなく、知識に変換されたデータを表しています。
アナリストは、主な業務を遂行する際にゴールドテーブルを頼りにします。また、顧客と共有されるデータがこのレベル外で保存されることはほとんどありません。
これらのテーブルの更新は、定期スケジュールの本番運用ワークロードの一部として実施されるため、コストの管理に役立ち、データの鮮度に関するサービスレベルアグリーメント(SLA)を確立できます。
レイクハウスには、企業のデータウェアハウスで発生するようなデッドロックの問題はありませんが、データリクエストに対するクラウド制限を回避するために、ゴールドテーブルは別のストレージコンテナに保存されることがよくあります。
一般に、集約、結合、およびフィルタリングはデータがゴールドレイヤーに書き込まれる前に処理されます。ユーザーはゴールドテーブルのデータに対する低レイテンシーのクエリーパフォーマンスを確認できるはずです。