データガバナンスのベストプラクティス
この記事では、次のセクションに示すアーキテクチャの原則別に整理されたデータ ガバナンスのベスト プラクティスについて説明します。
1. データマネジメントの統一
すべてのデータ資産のメタデータを 1 か所で管理
ベスト プラクティスとして、1 つのUnity Catalogを持つ単一のアカウントでレイクハウスを実行します。 Unity Catalog内のオブジェクトの最上位コンテナはメタストアです。 これには、データ資産 (テーブルやビューなど) と、それらへのアクセスを制御するアクセス許可が格納されます。 レイテンシーの問題を避けるために、クラウド リージョンごとに 1 つのメタストアを使用し、リージョンをまたがるメタストアにアクセスしないでください。
メタストアは、次の 3 レベルの名前空間を提供します。
Databricks では 、カタログを使用して、組織の情報アーキテクチャ全体で分離を提供することをお勧めします。 多くの場合、これは、カタログがソフトウェア開発環境のスコープ、チーム、または部署に対応できることを意味します。
2. データセキュリティの統合
アクセス制御の一元化
Databricks Data Intelligence Platform は、データ アクセス制御のメソッド、つまりどのグループまたは個人がどのデータにアクセスできるかを記述するメカニズムを提供します。 これらは、各個人がアクセスできるすべての記録の定義に至るまで、非常に詳細で具体的なポリシーの声明です。 または、すべての財務ユーザーがすべての財務データを表示できるなど、非常に表現力豊かで幅広いものにすることもできます。
Unity Catalog 、ファイル、テーブル、およびビューのアクセス制御を一元化します。 Unity Catalog 内のセキュリティ保護可能な各オブジェクトには所有者がいます。オブジェクトの所有者は、オブジェクトに対するすべての権限と、セキュリティ保護可能なオブジェクトに対する権限を他のプリンシパルに付与する権限を持ちます。 Unity Catalog では、 特権を管理し、SQL DDL ステートメントを使用して アクセス制御を構成できます 。
Unity Catalog では、動的ビューを使用してきめ細かなアクセス制御を行うため、行と列へのアクセスを、クエリを許可されているユーザーとグループに制限できます。 ダイナミック ビューの作成を参照してください。
詳細については 、「セキュリティ、コンプライアンス、プライバシー - 最小限の特権を使用して ID とアクセスを管理する」を参照してください。
監査ログを構成する
Databricks は、Databricks ユーザーが実行したアクティビティの監査ログへのアクセスを提供し、企業が詳細な Databricks の使用パターンを監視できるようにします。 ログには、ワークスペース レベルのイベントを含むワークスペース レベルの監査ログと、アカウント レベルのイベントを含むアカウント レベルの監査ログの 2 種類があります。
監査 Unity Catalog イベント
Unity Catalog は、メタストアに対して実行されたアクションの 監査ログをキャプチャ します。 これにより、管理者は、特定のデータセットにアクセスしたユーザーと、そのユーザーが実行したアクションに関する詳細な情報にアクセスできます。
データ共有イベントの監査
Delta Sharingによる安全な共有のために、Databricks は次のようなDelta Sharingイベントを監視する監査ログを提供します。
誰かが共有または受信者を作成、変更、更新、または削除したとき。
受信者がアクティベーションリンクにアクセスし、資格情報をダウンロードしたとき。
受信者が共有テーブル内の共有またはデータにアクセスするとき。
受信者の資格情報がローテーションまたは期限切れになったとき。
3. データ品質を管理する
Databricks Data Intelligence Platform は、組み込みの品質管理、テスト、モニタリング、施行による堅牢なデータ品質管理を提供し、ダウンストリームの BI、アナリティクス、機械学習のワークロードで正確で有用なデータを利用できるようにします。
「信頼性 - データ品質の管理」を参照してください。