Conformidade com GDPR e CCPA com Delta Lake

Este artigo descreve como você pode usar o Delta Lake no Databricks para gerenciar os regulamentos gerais de proteção de dados (GDPR) e compliance a Lei de Privacidade do Consumidor da Califórnia (CCPA) para seu data lake. compliance geralmente requer a exclusão de pontos ou a exclusão de registros individuais em uma grande coleção de dados. O Delta Lake acelera a exclusão de pontos em grandes data lakes com transações ACID, permitindo que você localize e remova informações de identificação pessoal (PII) em resposta a solicitações de GDPR ou CCPA do consumidor.

Planeje seu modelo de dados para conformidade

Modelar seus dados para compliance é uma passo importante ao lidar com PII. Existem inúmeras abordagens viáveis, dependendo das necessidades de seus consumidores de dados.

Uma abordagem frequentemente aplicada é a pseudonimização, ou tokenização reversível de elementos de informação pessoal (identificadores) para key (pseudônimos) que não podem ser identificados externamente. compliance por meio de pseudonimização requer um planejamento cuidadoso, incluindo o seguinte:

  • Armazenamento de informação de forma vinculada a pseudônimos ao invés de identificadores.

  • Manutenção de políticas rígidas de acesso e uso de dados que combinam os identificadores e pseudônimos.

  • pipeline ou políticas de armazenamento para remover dados brutos.

  • Lógica para localizar e excluir a ligação entre os pseudônimos e identificadores.

Como o Delta Lake simplifica a exclusão de pontos

Delta Lake tem muitas otimizações de salto de dados integradas. Para acelerar as exclusões de pontos, o Databricks recomenda usar a Z-order nos campos que você usa durante as operações DELETE .

O Delta Lake retém a história da tabela e a disponibiliza para query pontuais e reversões. A função VACUUM remove arquivos de dados que não são mais referenciados por uma tabela Delta e são mais antigos do que um limite de retenção especificado, excluindo permanentemente os dados. Para saber mais sobre default e recomendações, consulte Trabalhar com a tabela Delta Lake história.

Observação

Para tabelas com vetores de exclusão ativados, o senhor também deve executar REORG TABLE ... APPLY (PURGE) para excluir permanentemente os registros subjacentes. Consulte Aplicar alterações nos arquivos de dados do Parquet.