データと AI ガバナンスのベストプラクティス

この記事では、次のセクションにリストされているアーキテクチャ原則別に、データと AI ガバナンスのベストプラクティスについて説明します。

1. データとAI管理を統合する

データとAIのガバナンスプロセスを確立する

データと AI ガバナンスとは、組織のデータと AI 資産の可用性、使いやすさ、整合性、セキュリティの管理です。データと AI のガバナンスを強化することで、組織は正確なアナリティクスと意思決定に不可欠な資産の品質を確保し、新たな機会を特定し、顧客満足度を向上させ、最終的には収益を増やすことができます。これは、組織がデータとAIのプライバシー規制に準拠し、セキュリティ対策を改善し、データ侵害や罰則のリスクを軽減するのに役立ちます。また、効果的なデータと AI のガバナンスにより、冗長性が排除され、データマネジメントが合理化されるため、コスト削減と運用効率の向上につながります。

組織は、どのガバナンスモデルが最適かを選択することをお勧めします。

一元管理型ガバナンスモデルでは、ガバナンス管理者はメタストアの所有者であり、任意のオブジェクトの所有権を取得し、アクセス許可を付与および取り消すことができます。
分散ガバナンス・モデルでは、カタログまたはカタログのセットがデータ・ドメインです。そのカタログの所有者は、すべての資産を作成して所有し、そのドメイン内のガバナンスを管理できます。特定のドメインの所有者は、他のドメインの所有者とは独立して運営できます。

データおよび AI ガバナンスソリューションUnity Catalog は、Databricks Data Intelligence Platform に統合されています。両方のガバナンスモデルをサポートし、あらゆるクラウドやプラットフォーム上の構造化データと非構造化データ、ML モデル、ノートブック、ダッシュボード、ファイルをシームレスに管理するのに役立ちます。 Unity Catalogベストプラクティスは、データとAIガバナンスの実装に役立ちます。

すべてのデータとAI資産のメタデータを一箇所で管理

すべての資産のメタデータを 1 か所で管理することの利点は、すべてのデータに対して単一の真実のソースを維持することの利点に似ています。これらには、データの冗長性の削減、データの完全性の向上、異なる定義や分類による誤解の排除などが含まれます。また、単一のソースでグローバルポリシー、標準、ルールを実装することも簡単になります。

ベストプラクティスとして、 Unity Catalogを使用して単一のアカウントでレイクハウスを実行します。 Unity Catalogデータとボリューム (任意のファイル) のほか、機能やAIモデルなどのAIアセットも管理できます。 Unity Catalog内のオブジェクトの最上位コンテナーはメタストアです。これには、データ資産 (テーブルやビューなど) と、それらへのアクセスを制御するアクセス許可が格納されます。レイテンシの問題を回避するために、クラウドリージョンごとに 1 つのメタストアを使用し、リージョン間でメタストアにアクセスしないでください。

メタストアは、データ、ボリューム、AI アセットを構造化するための 3 レベルの名前空間を提供します。

Databricks では、カタログを使用して、組織の情報アーキテクチャ全体で分離を提供することをお勧めします。多くの場合、これは、カタログがソフトウェア開発環境のスコープ、チーム、または部署に対応できることを意味します。

データを追跡し、 AIリネージでデータの可視性を高める

データリネージは、データリーダーが組織内のデータの可視性と理解を向上させるのに役立つ強力なツールです。データリネージは、ソースから知見へのデータの変換と精製を表します。これには、データセットのソース、データセットの作成に使用された他のデータセット、データセットの作成者と作成日時、実行された変換、データセットを使用する他のデータセット、その他多くのイベントと属性など、データのライフサイクル全体にわたってデータに関連付けられたすべての関連メタデータとイベントのキャプチャが含まれます。

さらに、 Unity Catalogのテーブルでモデルをトレーニングすると、トレーニングおよび評価された上流データセットへのモデルのリネージを追跡できます。

リネージは、データ関連のさまざまなユースケースに使用できます。

コンプライアンスと監査の準備: データリネージは、組織がテーブルとフィールドのソースを追跡するのに役立ちます。これは、EU 一般データ保護規則 (GDPR)、カリフォルニア州消費者プライバシー法 (CCPA)、医療保険の相互運用性と説明責任に関する法律 (HIPPA)、バーゼル銀行監督委員会 (BCBS) 239、サーベンス・オクスリー法 (SOX) など、多くのコンプライアンス規制の要件を満たすために重要です。
影響分析/変更管理: データは、ソースから最終的なビジネス対応テーブルに至るまで、複数の変換を経ます。データ変更が下流のユーザーに与える潜在的な影響を理解することは、リスク管理の観点から重要になります。この影響は、 Unity Catalogによってキャプチャされたデータリネージを使用して簡単に判断できます。
データ品質保証: データセットがどこから来て、どのような変換が適用されたかを理解することで、データサイエンティストやアナリストははるかに優れたコンテキストを提供し、より適切で正確な知見を得ることができます。
デバッグと診断: 予期しない結果が発生した場合、データリネージは、データチームがエラーをソースまで遡って根本原因分析を実行するのに役立ちます。これにより、トラブルシューティングの時間が大幅に短縮されます。

Unity Catalog上で実行されているクエリ全体でランタイムデータリネージをキャプチャし、 Databricksモデルリネージもキャプチャします。リネージはすべての言語でサポートされており、列レベルまでキャプチャされます。リネージデータには、クエリに関連するノートブック、ジョブ、ダッシュボードが含まれます。リネージはカタログエクスプローラーですぐに視覚化でき、 DatabricksのデータリネージREST APIを使用してアクセスできます。

メタデータに一貫性のある説明を追加する

説明は、データに不可欠なコンテキストを提供します。これらは、ユーザーがデータテーブルと列の目的と内容を理解するのに役立ちます。この明確さにより、必要なデータをより簡単に検出、識別、フィルタリングできるようになり、効果的なデータ分析と意思決定に不可欠です。説明には、データの機密性やコンプライアンスに関する情報を含めることができます。これにより、組織はデータのプライバシーとセキュリティに関する法的および規制上の要件を満たすことができます。説明には、データのソース、正確性、関連性に関する情報も含める必要があります。これにより、データの完全性が確保され、チーム間のコラボレーションが向上します。

Unity Catalog の 2 つの主な機能は、テーブルと列の記述をサポートします。 Unity Catalogでは、

テーブルと列にコメントの形式でコメントを追加します。

また、Unity Catalog によって管理される任意のテーブルまたはテーブル列にAI 生成のコメントを追加して、プロセスを高速化することもできます。ただし、AI モデルは常に正確であるとは限らないため、保存する前にコメントを確認する必要があります。 Databricks では、不正確な点がないか確認するために、AI によって生成されたコメントを人間が確認することを強く推奨しています。
内のセキュリティ保護可能なものにタグを追加します Unity Catalog。タグは、Unity Catalog 内のさまざまなセキュリティ保護可能なオブジェクトに適用できるキーとオプションの値を持つ属性です。タグ付けは、メタストア内のさまざまなセキュリティ保護可能なオブジェクトを整理および分類するのに役立ちます。タグを使用すると、データ資産の検索と発見も容易になります。

データ消費者が簡単にデータディスカバリーできるようにする

Easy データディスカバリーを使用すると、データサイエンティスト、データアナリスト、データエンジニアは、関連するデータをすばやく見つけて参照し、価値実現までの時間を短縮できます。

Databricks Catalog Explorer は、データ、スキーマ (データベース)、テーブル、アクセス許可、データ所有者、外部ロケーション、資格情報を探索および管理するためのユーザーインターフェイスを提供します。さらに、カタログエクスプローラーの [知見] タブを使用して、に登録されている任意のテーブルの最も頻繁に実行される最近のクエリとユーザーを表示 Unity Catalogできます。

AI資産をデータとともに管理する

データガバナンスと人工知能（ AI ）の関係は成功にとって重要になっています。組織がデータをどのように管理、保護、使用するかは、 AI実装の結果と考慮事項に直接影響します。つまり、質の高いデータがなければAIは存在できず、データガバナンスがなければ質の高いデータも存在できません。

データと AI を一緒に管理すると、高品質で最新のデータへのシームレスなアクセスが確保され、AI のパフォーマンスが向上し、精度が向上し、意思決定が改善されます。サイロを解体すると、コラボレーションが向上し、ワークフローが合理化されて効率が向上し、生産性が向上し、コストが削減されます。

データセキュリティの向上ももう 1 つの利点です。統一されたガバナンスアプローチにより、一貫したデータ処理方法が確立され、脆弱性が軽減され、組織の機密情報保護能力が向上します。データと AI のガバナンスが統合され、データ処理と AI プロセスが規制要件に準拠すると、データプライバシー規制へのコンプライアンスを維持しやすくなります。

全体として、統一されたガバナンスアプローチは、データと AI の両方に対して明確なポリシーと手順を確立することで、利害関係者間の信頼を育み、AI の意思決定プロセスの透明性を確保します。

Databricksデータインテリジェンスプラットフォームでは、 Unity CatalogデータとAIアセットの両方を管理するための中心的なコンポーネントです。

Unity Catalogの機能

Unity Catalog対応のワークスペースでは、 data scientists Unity Catalogで特徴量テーブルを作成できます。これらの特徴テーブルはDelta Delta Live Tablesによって管理されるテーブルまたはUnity Catalog です。
Unity Catalogのモデル

Unity Catalogのモデルは、ワークスペース全体での集中アクセス制御、監査、リネージ、モデル検出などUnity Catalogの利点をMLモデルに拡張します。 Unity Catalogのモデルの主な機能には、モデルのガバナンス、時系列のモデルリネージ、モデルのバージョン管理、エイリアスによるモデルのデプロイメントなどがあります。

2. データとAIのセキュリティを統合する

すべてのデータとAI資産のアクセス制御を一元化

すべてのデータ資産へのアクセス制御を一元化することは重要です。これらの資産へのアクセスを管理および監査するための中心的な場所を提供することで、データと AI 資産のセキュリティとガバナンスが簡素化されるためです。このアプローチは、データとAIオブジェクトへのアクセスをより効率的に管理するのに役立ち、職務の分離に関する運用要件が確実に実施されるため、規制の遵守とリスク回避に不可欠です。

Databricks データインテリジェンスプラットフォームは、どのグループまたは個人がどのデータにアクセスできるかを記述するデータアクセス制御方法を提供します。これらは、各個人がアクセスできる各レコードの定義に至るまで、非常に詳細かつ具体的なポリシーステートメントです。または、すべての財務ユーザーがすべての財務データを表示できるなど、非常に表現力豊かで幅広いものにすることもできます。

Unity Catalogテーブル、ファイル、モデルなど、サポートされているすべてのセキュリティ保護可能なオブジェクトへのアクセス制御を一元化します。 Unity Catalog 内のセキュリティ保護可能なすべてのオブジェクトには所有者がいます。オブジェクトの所有者は、そのオブジェクトに対するすべての特権を持ち、セキュリティ保護可能なオブジェクトに対する特権を他のプリンシパルに付与する権限も持っています。使用するとUnity Catalog 、権限を管理し、SQL DDL ステートメントを使用してアクセス制御を構成できます。

Unity Catalogきめ細かなアクセス制御のために行フィルターと列マスクを使用します。行フィルターを使用すると、テーブルにフィルターを適用して、後続のクエリでフィルター述語が true と評価される行のみが返されるようにすることができます。列マスクを使用すると、表の列にマスキング関数を適用できます。マスキング関数はクエリの実行時に評価され、ターゲットカラムへの各参照がマスキング関数の結果に置き換えられます。

詳細については、「セキュリティ、コンプライアンス、プライバシー - 最小限の特権を使用して ID とアクセスを管理する」を参照してください。

監査ログを構成する

監査ログは、システムの整合性に影響を与える可能性のあるシステムアクティビティ (ユーザーアクション、設定の変更など) の詳細な記録を提供するため重要です。標準のシステムログは開発者が問題をトラブルシューティングするのに役立つように設計されていますが、監査ログはコンプライアンスやその他のビジネスポリシーの適用を目的としたアクティビティの履歴記録を提供します。堅牢な監査ログを維持することで、脅威、侵害、詐欺、その他のシステムの問題に直面した場合の準備を特定し、確実に行うことができます。

Databricks は、Databricks ユーザーが実行したアクティビティの監査ログへのアクセスを提供し、組織が詳細な Databricks 使用パターンを監視できるようにします。ログには、ワークスペースレベルのイベントを含むワークスペースレベルの監査ログと、アカウントレベルのイベントを含むアカウントレベルの監査ログの 2 種類があります。

ワークスペースでクエリまたはコマンドが実行されるたびに記録される追加の監査ログである詳細監査ログを有効にすることもできます。

監査データプラットフォームイベント

監査ログは、システムアクティビティの詳細な記録を提供するため重要です。データインテリジェンスプラットフォームには、メタデータアクセス (つまりデータアクセス) とデータ共有に関する監査ログがあります。

Unity Catalog は、メタストアに対して実行されたアクションの監査ログをキャプチャします。これにより、管理者は、特定のデータセットにアクセスしたユーザーと、そのユーザーが実行したアクションに関する詳細な情報にアクセスできます。
Delta Sharing による安全な共有のために、Databricks はDelta Sharing イベントを監視するための監査ログを提供します。これには以下が含まれます。
- 誰かが共有または受信者を作成、変更、更新、または削除したとき。
- 受信者がアクティベーションリンクにアクセスし、資格情報をダウンロードしたとき。
- 受信者が共有テーブル内の共有またはデータにアクセスするとき。
- 受信者の資格情報がローテーションまたは期限切れになったとき。

3. データ品質基準の確立

Databricks Data Intelligence Platform は、組み込みの品質管理、テスト、モニタリング、施行による堅牢なデータ品質管理を提供し、ダウンストリームの BI、アナリティクス、機械学習のワークロードで正確で有用なデータを利用できるようにします。

実装の詳細については、「信頼性 - データ品質の管理」を参照してください。

明確なデータ品質基準を定義する

明確で実用的なデータ品質基準を定義することは、分析、レポート、意思決定に使用されるデータの信頼性と信頼性を確保するのに役立つため、非常に重要です。これらの基準を文書化することで、基準が確実に守られるようになります。データ品質基準は、ビジネスの特定のニーズに基づいており、正確性、完全性、一貫性、適時性、信頼性などのデータ品質の側面に対処する必要があります。

正確性: データが実際の値を正確に反映していることを確認します。
完全性:必要なデータをすべて取得し、重要なデータを見逃さないようにする必要があります。
一貫性: すべてのシステムのデータは一貫性があり、他のデータと矛盾しないようにする必要があります。
適時性: データはタイムリーに更新され、利用可能である必要があります。
信頼性: データは、信頼性が確保される方法でソース化および処理される必要があります。

データのプロファイリング、クレンジング、検証、モニタリングにデータ品質ツールを使用する

データのプロファイリング、クレンジング、検証、モニタリングにデータ品質ツールを活用します。これらのツールは、データ品質の問題を検出して修正するプロセスを自動化するのに役立ちます。これは、データレイクに典型的な大規模なデータセット全体でデータ品質イニシアチブを拡大するために不可欠です。

DLT を使用するチームの場合、期待値を使用して、データセットの内容に対するデータ品質の制約を定義できます。期待値により、テーブルに到着するデータがデータ品質要件を満たしていることを保証し、各パイプライン更新のデータ品質に関する知見を提供できます。

標準化されたデータ形式と定義の実装と適用

標準化されたデータ形式と定義により、すべてのシステムにわたって一貫したデータ表現が実現し、データの統合と分析が容易になり、コストが削減され、チームや部門間のコミュニケーションとコラボレーションが強化されて意思決定が向上します。また、データ品質を作成および維持するための構造を提供するのにも役立ちます。

組織全体で使用されるすべてのデータ要素の定義、形式、および許容値を含む標準データディクショナリを開発して適用します。

すべてのデータベースとアプリケーションで一貫した命名規則、日付形式、測定単位を使用して、不一致や混乱を防ぎます。

データと AI ガバナンスのベスト プラクティス