Delta Lake による GDPR および CCPA のコンプライアンス

この記事では、Databricks で Delta Lake を使用して、データレイクの EU 一般データ保護規則 (GDPR) およびカリフォルニア州消費者プライバシー法 (CCPA) のコンプライアンスを管理する方法について説明します。 コンプライアンスでは、多くの場合、 ポイントの削除、または大規模なデータ コレクション内の個々のレコードの削除が必要です。 Delta Lake は、ACIDトランザクションを使用して大規模なデータレイクでのポイント削除を高速化し、コンシューマーの GDPR または CCPA 要求に応じて個人を特定できる情報 (PII) を見つけて削除できるようにします。

コンプライアンスのためのデータモデルを計画する

コンプライアンスのためにデータをモデル化することは、PII に対処する上で重要なステップです。 データ コンシューマーのニーズに応じて、実行可能なアプローチは多数あります。

頻繁に適用されるアプローチの1つは、仮名化、または個人情報要素( 識別子 )を外部から識別できないキー( 仮名)に可逆的にトークン化 することです。仮名化によるコンプライアンスには、以下を含む慎重な計画が必要です。

  • 識別子ではなく仮名にリンクされた方法での情報の保存。

  • 識別子と仮名を組み合わせたデータへのアクセスと使用に関する厳格なポリシーの維持。

  • 生データを削除するためのパイプラインまたはストレージ ポリシー。

  • 仮名と識別子の間のリンクを見つけて削除するロジック。

Delta Lake でポイント削除を簡略化する方法

デルタレイクには、最適化をスキップする多くの データ があります。 ポイントの削除を高速化するために、Databricks では、 DELETE 操作中に使用するフィールドで Z-order を使用することをお勧めします。

Delta Lake はテーブル履歴を保持し、特定の時点のクエリーとロールバックに使用できるようにします。 VACUUM 関数は、Delta テーブルによって参照されなくなり、指定した保有期間のしきい値よりも古いデータ ファイルを削除し、データを完全に削除します。デフォルトと推奨事項の詳細については、「 Delta Lakeのテーブル履歴を取り扱う」を参照してください。

注:

削除ベクトルが有効になっているテーブルの場合は、基になるレコードを完全に削除するためにREORG TABLE ... APPLY (PURGE)も実行する必要があります。 「Parquet データ ファイルへの変更を適用する」を参照してください。