データガバナンスのベストプラクティス

この記事では、次のセクションに示すアーキテクチャの原則別に整理されたデータ ガバナンスのベスト プラクティスについて説明します。

1. データマネジメントの統一

すべてのデータ資産のメタデータを 1 か所で管理

ベスト プラクティスとして、1 つのUnity Catalogを持つ単一のアカウントでレイクハウスを実行します。 Unity Catalog内のオブジェクトの最上位コンテナはメタストアです。 これには、データ資産 (テーブルやビューなど) と、それらへのアクセスを制御するアクセス許可が格納されます。 レイテンシーの問題を避けるために、クラウド リージョンごとに 1 つのメタストアを使用し、リージョンをまたがるメタストアにアクセスしないでください。

メタストアは、次の 3 レベルの名前空間を提供します。

Databricks では 、カタログを使用して、組織の情報アーキテクチャ全体で分離を提供することをお勧めします。 多くの場合、これは、カタログがソフトウェア開発環境のスコープ、チーム、または部署に対応できることを意味します。

2. データセキュリティの統合

アクセス制御の一元化

Databricks Data Intelligence Platform は、データ アクセス制御のメソッド、つまりどのグループまたは個人がどのデータにアクセスできるかを記述するメカニズムを提供します。 これらは、各個人がアクセスできるすべての記録の定義に至るまで、非常に詳細で具体的なポリシーの声明です。 または、すべての財務ユーザーがすべての財務データを表示できるなど、非常に表現力豊かで幅広いものにすることもできます。

Unity Catalog 、ファイル、テーブル、およびビューのアクセス制御を一元化します。 Unity Catalog 内のセキュリティ保護可能な各オブジェクトには所有者がいます。オブジェクトの所有者は、オブジェクトに対するすべての権限と、セキュリティ保護可能なオブジェクトに対する権限を他のプリンシパルに付与する権限を持ちます。 Unity Catalog では、 特権を管理し、SQL DDL ステートメントを使用して アクセス制御を構成できます

Unity Catalog では、動的ビューを使用してきめ細かなアクセス制御を行うため、行と列へのアクセスを、クエリを許可されているユーザーとグループに制限できます。 ダイナミック ビューの作成を参照してください。

詳細については 、「セキュリティ、コンプライアンス、プライバシー - 最小限の特権を使用して ID とアクセスを管理する」を参照してください。

監査ログを構成する

Databricks は、Databricks ユーザーが実行したアクティビティの監査ログへのアクセスを提供し、企業が詳細な Databricks の使用パターンを監視できるようにします。 ログには、ワークスペース レベルのイベントを含むワークスペース レベルの監査ログと、アカウント レベルのイベントを含むアカウント レベルの監査ログの 2 種類があります。

監査 Unity Catalog イベント

Unity Catalog は、メタストアに対して実行されたアクションの 監査ログをキャプチャ します。 これにより、管理者は、特定のデータセットにアクセスしたユーザーと、そのユーザーが実行したアクションに関する詳細な情報にアクセスできます。

データ共有イベントの監査

Delta Sharingによる安全な共有のために、Databricks は次のようなDelta Sharingイベントを監視する監査ログを提供します。

  • 誰かが共有または受信者を作成、変更、更新、または削除したとき。

  • 受信者がアクティベーションリンクにアクセスし、資格情報をダウンロードしたとき。

  • 受信者が共有テーブル内の共有またはデータにアクセスするとき。

  • 受信者の資格情報がローテーションまたは期限切れになったとき。

3. データ品質を管理する

Databricks Data Intelligence Platform は、組み込みの品質管理、テスト、モニタリング、施行による堅牢なデータ品質管理を提供し、ダウンストリームの BI、アナリティクス、機械学習のワークロードで正確で有用なデータを利用できるようにします。

「信頼性 - データ品質の管理」を参照してください。

4.データを安全かつリアルタイムで共有する

オープン Delta Sharing プロトコルを使用してパートナーとデータを共有する

Delta Sharing は、レイクハウスから任意のコンピューティングプラットフォームに ライブデータを安全に共有するためのオープンソリューションを提供します 。受信者は、Databricks プラットフォーム、同じクラウド、または任意のクラウド上にいる必要はありません。 Delta Sharing は Unity Catalog とネイティブに統合されているため、組織は企業全体で共有データを一元的に管理および監査し、セキュリティとコンプライアンスの要件を満たしながらデータ資産を自信を持って共有できます。

データプロバイダーは、ライブデータを複製したり別のシステムに移動したりすることなく、クラウドストレージ内の場所からライブデータを共有できます。 このアプローチでは、データ プロバイダーがクラウド、地域、またはデータ プラットフォーム間で各データ コンシューマーにデータを複数回レプリケートする必要がないため、データ共有の運用コストが削減されます。

Databricks ユーザー間で Databricks 対 Databricks の Delta Sharing を使用する

Unity Catalog メタストアにアクセスできないユーザーとデータを共有する場合は、受信者が Unity Catalog が有効になっている Databricks ワークスペースにアクセスできる限り、Databricks-to-Databricks Delta Sharing を使用できます。Databricks 間の共有を使用すると、他の Databricks アカウントのユーザー、クラウド リージョン間、クラウド プロバイダー間でデータを共有できます。 これは、独自の Databricks アカウント内のさまざまな Unity Catalog メタストア間でデータを安全に共有するための優れた方法です。