Práticas recomendadas para governança de dados

Este artigo aborda as melhores práticas de governança de dados, organizadas por princípios de arquitetura listados nas seções a seguir.

1. Unifique a gestão de dados

gerencia metadados para todos os ativos de dados em um só lugar

Como prática recomendada, execute a casa do lago em um único site account com um Unity Catalog. O contêiner de nível superior de objetos no Unity Catalog é um metastore. Ele armazena dados ativos (como tabelas e visualizações) e as permissões que regem o acesso a eles. Use um único metastore por região de nuvem e não acesse metastores entre regiões para evitar problemas de latência.

O metastore fornece um namespace de três níveis:

Databricks recomenda o uso de catálogos para fornecer segregação na arquitetura de informação da sua organização. Muitas vezes, isso significa que os catálogos podem corresponder ao escopo, equipe ou unidade de negócios do ambiente de desenvolvimento de software.

2. Unifique a segurança dos dados

Centralize o controle de acesso

A Databricks Data Intelligence Platform fornece métodos de controle de acesso a dados, mecanismos que descrevem quais grupos ou indivíduos podem acessar quais dados. Essas são declarações de política que podem ser extremamente granulares e específicas, até as definições de cada registro ao qual cada indivíduo tem acesso. Ou podem ser muito expressivos e amplos, como, por exemplo, todos os usuários de finanças podem ver todos os dados financeiros.

O Unity Catalog centraliza os controles de acesso para arquivos, tabelas e view. Cada objeto protegível no Unity Catalog tem um proprietário. O proprietário de um objeto tem todos os privilégios no objeto, bem como a permissão para conceder privilégios no objeto protegível a outros principais. O Unity Catalog permite gerenciar privilégios e configurar o controle de acesso usando instruções SQL DDL.

O Unity Catalog usa view dinâmica para controles de acesso refinados para que você possa restringir o acesso a linhas e colunas aos usuários e grupos autorizados a query -los. Consulte Criar uma visualização dinâmica.

Para obter mais informações, consulte Segurança, conformidade e privacidade - gerencie identidade e acesso usando o mínimo de privilégio.

Configurar registro de auditoria

Databricks fornece acesso a logs de auditoria de atividades realizadas por usuários de Databricks, permitindo que sua empresa monitore padrões de uso detalhados de Databricks. Há dois tipos de logs: logs de auditoria no nível do espaço de trabalho com eventos no nível do workspace e logs de auditoria no nível accountcom eventos no nível account .

Auditar eventos Unity Catalog

Unity Catalogs captura logsde auditoria de ações executadas no metastore. Isso permite que os administradores acessem detalhes detalhados sobre quem acessou um determinado dataset e quais ações executaram.

Auditar eventos de compartilhamento de dados

Para o compartilhamento seguro com o Delta Sharing, a Databricks fornece logs de auditoria para monitorar os eventos do Delta Sharing, incluindo:

  • Quando alguém cria, modifica, atualiza ou exclui um compartilhamento ou um destinatário.

  • Quando um destinatário acessa um link de ativação e downloads a credencial.

  • Quando um destinatário acessa compartilhamentos ou dados em tabelas compartilhadas.

  • Quando a credencial de um destinatário é rotacionada ou expira.

3. Gerencie a qualidade dos dados

A Databricks Data Intelligence Platform fornece um gerenciamento robusto da qualidade dos dados com controles de qualidade integrados, testes, monitoramento e aplicação para garantir que dados precisos e úteis estejam disponíveis para cargas de trabalho de BI, analítica e machine learning downstream.

Consulte Confiabilidade - gerenciar a qualidade dos dados.

4. Compartilhe dados com segurança e em tempo real

Use o protocolo de compartilhamento Delta aberto para compartilhar dados com parceiros

Delta compartilhamento fornece uma solução aberta para compartilhamento seguro de dados ao vivo de sua lakehouse para qualquer plataforma de computação. Os destinatários não precisam estar na plataforma Databricks, na mesma cloud ou em qualquer cloud . O Delta compartilhamento é integrado nativamente ao Unity Catalog, permitindo que as organizações gerenciem e auditem centralmente os dados compartilhados em toda a empresa e compartilhem ativos de dados com confiança, atendendo aos requisitos de segurança e compliance .

Os provedores de dados podem compartilhar dados ao vivo de onde eles residem em seu armazenamento cloud sem replicá-los ou movê-los para outro sistema. Essa abordagem reduz os custos operacionais do compartilhamento de dados porque os provedores de dados não precisam replicar dados várias vezes na cloud, regiões geográficas ou plataformas de dados para cada um de seus consumidores de dados.

Use Databricks-to-Databricks Delta Sharing entre usuários Databricks

Se você deseja compartilhar dados com usuários que não têm acesso ao metastore do Unity Catalog , pode usar o compartilhamento Delta Databricks-para-Databricks, desde que os destinatários tenham acesso a um workspace do Databricks habilitado para Unity Catalog. O compartilhamento de Databricks para Databricks permite que você compartilhe dados com usuários em outra account Databricks, em regiões cloud , em provedores cloud . É uma ótima maneira de compartilhar dados com segurança em diferentes metastores do Unity Catalog em sua própria account do Databricks.