Compartilhe o uso de dados do protocolo Delta Sharing Databricks-to-Databricks (para provedores)
Este artigo apresenta uma visão geral de como usar o Databricks-to-Databricks Delta Sharing para compartilhar dados com segurança com qualquer usuário do Databricks, independentemente do host account ou cloud, desde que esse usuário tenha acesso a um workspace habilitado para Unity Catalog.
Observação
Se o senhor for um destinatário de dados (um usuário ou grupo de usuários com quem os dados do Databricks estão sendo compartilhados), consulte Acessar dados compartilhados com o senhor usando o Delta Sharing (para destinatários).
Quem deve usar o site Databricks-to-Databricks Delta Sharing?
Há três maneiras de compartilhar o uso de dados Delta Sharing.
O protocolo de compartilhamento Databricks-to-Databricks , abordado neste artigo, permite que o senhor compartilhe dados do seu Unity Catalog habilitado workspace com usuários que também tenham acesso a um Unity Catalog habilitado Databricks workspace.
Essa abordagem usa o servidor Delta Sharing incorporado ao Databricks e oferece suporte para compartilhamento de Notebook, Unity Catalog governança de dados, auditoria e acompanhamento de uso para provedores e destinatários. A integração com o Unity Catalog simplifica a configuração e a governança para provedores e destinatários e melhora o desempenho.
O protocolo de compartilhamento aberto Databricks permite que você compartilhe dados gerenciados em um Unity Catalog habilitado Databricks workspace com usuários em qualquer plataforma de computação.
Veja em Compartilhar uso de dados o protocolo de compartilhamento aberto Delta Sharing (para provedores).
Uma implementação de gerenciar o cliente do servidor de código aberto Delta Sharing permite que o senhor compartilhe de qualquer plataforma para qualquer plataforma, seja ela Databricks ou não.
Consulte github.com/delta-io/delta-sharing.
Para obter uma introdução ao site Delta Sharing e mais informações sobre essas três abordagens, consulte O que é Delta Sharing?
Databricks-to-Databricks Delta Sharing fluxo de trabalho
Esta seção fornece uma visão geral de alto nível do fluxo de trabalho de compartilhamento Databricks-para-Databricks, com links para documentação detalhada para cada passo.
No modelo Databricks-to-Databricks Delta Sharing :
Um destinatário de dados fornece a um provedor de dados o identificador de compartilhamento exclusivo para o metastore Databricks Unity Catalog que está anexado ao Databricks workspace que o destinatário (que representa um usuário ou grupo de usuários) usará para acessar os dados que o provedor de dados está compartilhando.
Para obter detalhes, consulte o passo 1: Solicitar o identificador de compartilhamento do destinatário.
O provedor de dados cria um compartilhamento no metastore do Unity Catalog do provedor. Esse objeto nomeado contém uma coleção de tabelas, visualizações, volumes e Notebook registrados no metastore.
Para obter detalhes, consulte Criar e gerenciar compartilhamentos para o Delta Sharing.
O provedor de dados cria um objeto destinatário no metastore do Unity Catalog do provedor. Esse objeto nomeado representa o usuário ou grupo de usuários que acessará os dados incluídos no compartilhamento, juntamente com o identificador de compartilhamento do metastore Unity Catalog que está anexado ao workspace que o usuário ou grupo de usuários usará para acessar o compartilhamento. O identificador de compartilhamento é o identificador key que habilita a conexão segura.
Para obter detalhes, consulte o passo 2: Criar o destinatário.
O provedor de dados concede ao destinatário acesso ao compartilhamento.
Para obter detalhes, consulte gerenciar o acesso a Delta Sharing data shares (para provedores).
O compartilhamento fica disponível no Databricks workspace do destinatário e os usuários podem acessá-lo usando o Catalog Explorer, o Databricks CLI, ou o SQL comando em um Databricks Notebook ou o editor de consultas Databricks SQL.
Para acessar as tabelas, exibições, volumes e o Notebook em um compartilhamento, um administrador do metastore ou um usuário privilegiado deve criar um catálogo a partir do compartilhamento. Em seguida, esse usuário ou outro usuário que tenha o privilégio adequado pode conceder a outros usuários acesso ao catálogo e aos objetos do catálogo. A concessão de permissões em catálogos compartilhados e dados ativos funciona da mesma forma que com qualquer outro ativo registrado em Unity Catalog, com a importante distinção de que os usuários podem receber apenas acesso de leitura a objetos em catálogos criados a partir de compartilhamentos Delta Sharing.
O Shared Notebook fica no nível do catálogo e qualquer usuário com o privilégio
USE CATALOG
no catálogo pode acessá-lo.Para obter detalhes, consulte Ler dados compartilhados usando Databricks-to-Databricks Delta Sharing (para destinatários).
Melhorar o desempenho da leitura de tabelas com o compartilhamento de histórias
Prévia
Esse recurso está em Prévia Pública.
Databricks-to-Databricks O compartilhamento de tabelas pode melhorar o desempenho ao permitir o compartilhamento de histórias. O compartilhamento de história melhora o desempenho aproveitando as credenciais de segurança temporárias do seu armazenamento em nuvem, com escopo reduzido para o diretório raiz da tabela Delta compartilhada do provedor, resultando em um desempenho comparável ao acesso direto às tabelas de origem.
Para novos compartilhamentos de tabela, especifique
WITH HISTORY
ao criar o compartilhamento de tabela. Consulte Adicionar tabelas a um compartilhamento.Para compartilhamentos de tabelas existentes, o senhor deve alterar o compartilhamento para compartilhar o histórico da tabela. Consulte Atualizar compartilhamentos.
Observação
As tabelas com particionamento ativado não recebem os benefícios de desempenho do histórico de compartilhamento. Consulte Especificar partições de tabela para compartilhar
história compartilhamento privacidade de dados
Os provedores devem estar cientes de que o Databricks-to-Databricks história compartilhamento concede aos destinatários do Delta Sharing acesso temporário de leitura aos arquivos de dados e ao Delta log. O Delta log contém a commit história de cada versão da tabela, informações sobre o committer (semelhante ao GitHub commit história) e dados excluídos que não foram vacuum.