Delta Lake による GDPR および CCPA のコンプライアンス
この記事では、Databricks で Delta Lake を使用して、データレイクの EU 一般データ保護規則 (GDPR) およびカリフォルニア州消費者プライバシー法 (CCPA) のコンプライアンスを管理する方法について説明します。 コンプライアンスでは、多くの場合、 ポイントの削除、または大規模なデータ コレクション内の個々のレコードの削除が必要です。 Delta Lake は、ACIDトランザクションを使用して大規模なデータレイクでのポイント削除を高速化し、コンシューマーの GDPR または CCPA 要求に応じて個人を特定できる情報 (PII) を見つけて削除できるようにします。
コンプライアンスのためのデータモデルを計画する
コンプライアンスのためにデータをモデル化することは、PII に対処する上で重要なステップです。 データ コンシューマーのニーズに応じて、実行可能なアプローチは多数あります。
頻繁に適用されるアプローチの1つは、仮名化、または個人情報要素( 識別子 )を外部から識別できないキー( 仮名)に可逆的にトークン化 することです。仮名化によるコンプライアンスには、以下を含む慎重な計画が必要です。
識別子ではなく仮名にリンクされた方法での情報の保存。
識別子と仮名を組み合わせたデータへのアクセスと使用に関する厳格なポリシーの維持。
生データを削除するためのパイプラインまたはストレージ ポリシー。
仮名と識別子の間のリンクを見つけて削除するロジック。
Delta Lake でポイント削除を簡略化する方法
デルタレイクには、最適化をスキップする多くの データ があります。 ポイントの削除を高速化するために、Databricks では、 DELETE
操作中に使用するフィールドで Z-order を使用することをお勧めします。
Delta Lake はテーブル履歴を保持し、特定の時点のクエリーとロールバックに使用できるようにします。 VACUUM 関数は、Delta テーブルによって参照されなくなり、指定した保有期間のしきい値よりも古いデータ ファイルを削除し、データを完全に削除します。デフォルトと推奨事項の詳細については、「 Delta Lakeのテーブル履歴を取り扱う」を参照してください。
注:
削除ベクトルが有効になっているテーブルの場合は、基になるレコードを完全に削除するためにREORG TABLE ... APPLY (PURGE)
も実行する必要があります。 「Parquet データ ファイルへの変更を適用する」を参照してください。