「信頼できる唯一の情報源を構築する」とは何を意味するのか

Databricksレイクハウスは、データアクセスとストレージを単一のシステムに統合し、レイクハウスを信頼できる唯一の情報源(SSOT: single source of truth)として確立することで、複数のシステム間でデータコピーの作成や同期を行う必要性を排除します。データを複製すると、多くの場合データサイロが発生します。これは、組織内の複数のチームが、同じデータの、品質や鮮度が異なるバージョンを使用して作業している可能性があることを意味します。

レイクハウスでトランザクションとデータアクセスを制御する方法

Delta Lake のトランザクションは、データファイルと一緒に保存されたログファイルを使用して、テーブルレベルで ACID 保証を提供します。Delta Lake のテーブルをバックアップするデータとログファイルは、クラウドオブジェクトストレージに一緒に保管されているため、データの読み取りと書き込みを同時に行う場合に多くのクエリが発生してビジネスクリティカルなワークロードのパフォーマンス低下やデッドロックが生じることはありません。つまり、企業環境全体で、ユーザーとアプリケーションはデータの同じ単一コピーに接続して複数のワークロードを実行することができ、すべての閲覧者にはクエリ実行時にデータの最新バージョンが確実に表示されます。

本番運用データへのアクセスを管理する

Unity Catalog は、データスチュワードがユーザー、グループ、サービスプリンシパルに対してきめ細かいアクセス制御を提供できるようにする、一元化されたデータガバナンスソリューションを提供します。Unity Catalog は、アクセス制御リスト(ACL)を使用して権限を管理し、リソースの構成における柔軟性と独自性を実現しています。構成可能な権限には、次のものがあります。

  • 一部のテーブルへの読み取り専用アクセス権。

  • データベースに対するテーブルの作成権限と変更権限。

  • クラウドストレージの特定の場所にあるデータに対する読み取りまたは変更権限。

  • Unity Catalog で管理されるストレージ資格情報を使用した、多くのクラウドリソースへのアクセス権。

詳細については「Unity Catalogとは?」を参照してください。

レイクハウスでビューを活用

Databricks のビューは、レイクハウス内のテーブルに保存されているデータに対する、保存済みのクエリを表します。テーブルを生成するクエリは書き込み時に実行されますが、ビューはビューに対するクエリが実行されるたびに定義ロジックを実行します。そのため、ビューではさまざまなソースからの最新のデータにアクセスでき、コンピュートの消費は結果の更新が必要な場合のみ発生します。

Unity Catalog を使用して、他のデータオブジェクトと一緒にビューを保護および共有することで、個人やチームが組織全体で重要なビジネス上の意思決定を行うロジックを共有することができます。

詳細については、「Databricks Lakehouse のデータオブジェクト」を参照してください。

コラボレーターとデータを共有する

Unity Catalog の ACL は企業組織内でデータを共有するための幅広いユースケースに対応していますが、Delta Sharing は、データセットへの読み取り専用アクセスを管理し、どこにいてもコラボレーターと共有できるようにすることで、その範囲をさらに拡張します。Unity Catalog でサポートされるユースケースには次のものが含まれます。

  • それぞれ離れた複数の地域に対する多国籍企業の地域分析にリアルタイムでアクセスできるようにする。

  • 同じ企業グループ内の複数の企業間でデータセットを共有する。

  • 顧客が厳選したデータセットに、サードパーティの消費者が安全にアクセスできるようにする。

Databricks では、Delta Sharing は Unity Catalog に組み込まれていますが、オープンソースの Delta Lakeの一部でもあります。 詳細については、 Delta Sharing使用してデータと AI 資産を安全に共有する」を参照してください。