Conformidade com GDPR e CCPA com Delta Lake
Este artigo descreve como você pode usar o Delta Lake no Databricks para gerenciar os regulamentos gerais de proteção de dados (GDPR) e compliance a Lei de Privacidade do Consumidor da Califórnia (CCPA) para seu data lake. compliance geralmente requer a exclusão de pontos ou a exclusão de registros individuais em uma grande coleção de dados. O Delta Lake acelera a exclusão de pontos em grandes data lakes com transações ACID, permitindo que você localize e remova informações de identificação pessoal (PII) em resposta a solicitações de GDPR ou CCPA do consumidor.
Planeje seu modelo de dados para conformidade
Modelar seus dados para compliance é uma passo importante ao lidar com PII. Existem inúmeras abordagens viáveis, dependendo das necessidades de seus consumidores de dados.
Uma abordagem frequentemente aplicada é a pseudonimização, ou tokenização reversível de elementos de informação pessoal (identificadores) para key (pseudônimos) que não podem ser identificados externamente. compliance por meio de pseudonimização requer um planejamento cuidadoso, incluindo o seguinte:
Armazenamento de informação de forma vinculada a pseudônimos ao invés de identificadores.
Manutenção de políticas rígidas de acesso e uso de dados que combinam os identificadores e pseudônimos.
pipeline ou políticas de armazenamento para remover dados brutos.
Lógica para localizar e excluir a ligação entre os pseudônimos e identificadores.
Como o Delta Lake simplifica a exclusão de pontos
Delta Lake tem muitas otimizações de salto de dados integradas. Para acelerar as exclusões de pontos, o Databricks recomenda usar a Z-order nos campos que você usa durante as operações DELETE
.
O Delta Lake retém a história da tabela e a disponibiliza para query pontuais e reversões. A função VACUUM remove arquivos de dados que não são mais referenciados por uma tabela Delta e são mais antigos do que um limite de retenção especificado, excluindo permanentemente os dados. Para saber mais sobre default e recomendações, consulte Trabalhar com a tabela Delta Lake história.
Observação
Para tabelas com vetores de exclusão ativados, o senhor também deve executar REORG TABLE ... APPLY (PURGE)
para excluir permanentemente os registros subjacentes. Consulte Aplicar alterações nos arquivos de dados do Parquet.