Conecte-se ao armazenamento de objetos clouds usando o Unity Catalog

Este artigo apresenta uma visão geral das configurações de conexão de armazenamento em nuvem necessárias para trabalhar com o uso de dados do Unity Catalog.

A Databricks recomenda o uso do Unity Catalog para gerenciar o acesso a todos os dados armazenados no armazenamento de objetos em nuvens. O Unity Catalog oferece um conjunto de ferramentas para configurar conexões seguras com o armazenamento de objetos na nuvem. Essas conexões fornecem acesso para concluir as seguintes ações:

  • Ingerir dados brutos em um lakehouse.

  • Crie e leia tabelas de gerenciamento em armazenamento seguro clouds .

  • registrar ou criar tabelas externas contendo dados tabulares.

  • Ler e gravar dados não estruturados.

Aviso

Não conceda aos usuários finais acesso em nível de armazenamento para gerenciar tabelas ou volumes do Catálogo do Unity. Esses dados comprometem segurança e governança.

Evite conceder aos usuários acesso direto ao Google Cloud Storage ou aos buckets R2 da Cloudflare que são usados como armazenamento gerenciar do Unity Catalog. A única identidade que deve ter acesso aos dados gerenciados pelo Unity Catalog é a identidade usada pelo Unity Catalog. Ignorar isso cria os seguintes problemas em seu ambiente:

  • Os controles de acesso estabelecidos no Unity Catalog podem ser contornados por usuários que têm acesso direto ao GCS ou R2.

  • Auditoria, linhagem e outros recursos de monitoramento do Catálogo do Unity não capturarão acesso direto.

  • O ciclo de vida dos dados está interrompido. Ou seja, modificar, excluir ou evoluir tabelas no Databricks quebrará os consumidores que têm acesso direto ao armazenamento, e gravações fora do Databricks podem resultar em corrupção de dados.

Observação

Se o seu site workspace foi criado antes de 6 de março de 2024, ele pode não estar habilitado para Unity Catalog. Um administrador do account deve habilitar o Unity Catalog para o seu workspace. Consulte Ativar um workspace para Unity Catalog.

Como o Unity Catalog conecta o armazenamento de objetos ao Databricks?

O Databricks oferece suporte a buckets do Google Cloud Storage (GSC) e buckets do Cloudflare R2 (Public Preview) como locais de armazenamento em nuvem para dados ativos registrados no Unity Catalog. O R2 destina-se principalmente a casos de uso em que o senhor deseja evitar taxas de saída de dados, como o Delta Sharing em clouds e regiões. Para obter mais informações, consulte Usar réplicas do Cloudflare R2 ou migrar o armazenamento para o R2.

Para gerenciar o acesso ao armazenamento em nuvem subjacente que contém tabelas e volumes, o Unity Catalog usa os seguintes tipos de objetos:

  • Uma credencial de armazenamento representa um mecanismo de autenticação e autorização para acessar dados armazenados em seu cloud tenant, usando um serviço account para buckets GCS ou tokens R2 API para buckets R2 da Cloudflare. Cada credencial de armazenamento está sujeita às políticas de controle de acesso do Unity Catalog que controlam quais usuários e grupos podem acessar a credencial. Se um usuário não tiver acesso a uma credencial de armazenamento em Unity Catalog, a solicitação falhará e o site Unity Catalog não tentará se autenticar no site cloud tenant em nome do usuário. A permissão para criar credenciais de armazenamento só deve ser concedida aos usuários que precisam definir locais externos. Consulte Criar uma credencial de armazenamento para se conectar ao Google Cloud Storage e Criar uma credencial de armazenamento para se conectar ao Cloudflare R2.

  • Um local externo é um objeto que combina um caminho de armazenamento em nuvem com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento em nuvem. Cada local de armazenamento está sujeito às políticas de controle de acesso do Unity Catalog que controlam quais usuários e grupos podem acessar a credencial. Se um usuário não tiver acesso a um local de armazenamento no Unity Catalog, a solicitação falhará e o Unity Catalog não tentará se autenticar em suas nuvens tenant em nome do usuário. A permissão para criar e usar locais externos só deve ser concedida a usuários que precisem criar tabelas externas, volumes externos ou gerenciar locais de armazenamento. Consulte Criar um local externo para conectar o armazenamento em nuvem ao Databricks.

    Os locais externos são usados tanto para dados externos ativos, como tabelas externas e volumes externos, quanto para dados gerenciar ativos, como tabelas gerenciar e volumes gerenciar. Para obter mais informações sobre a diferença, consulte Tabelas e volumes.

    Quando um local externo é usado para armazenar tabelas gerenciar e volumes gerenciar, ele é chamado de local de armazenamento gerenciar. Os locais de armazenamento gerenciados podem existir no nível do metastore, do catálogo ou do esquema. A Databricks recomenda a configuração de locais de armazenamento gerenciados no nível do catálogo. Se o senhor precisar de um isolamento mais granular, poderá especificar locais de armazenamento gerenciáveis no nível do esquema. que estão habilitados para o Unity Catalog automaticamente não têm armazenamento em nível de metastore pelo default, mas o senhor pode especificar um local de armazenamento gerenciar no nível do metastore para fornecer armazenamento default quando nenhum armazenamento em nível de catálogo estiver definido. O espaço de trabalho habilitado para o Unity Catalog recebe manualmente um local de armazenamento gerenciado no nível do metastore pelo site default. Consulte Especificar um local de armazenamento gerenciar no Unity Catalog e Práticas recomendadas do Unity Catalog.

Os volumes são o objeto seguro que a maioria dos usuários do Databricks deve usar para interagir diretamente com dados não tabulares no armazenamento de objetos em nuvens. Consulte Criar e trabalhar com volumes.

Observação

Embora o Unity Catalog ofereça suporte ao acesso baseado em caminho a tabelas externas e volumes externos usando URIs de armazenamento em nuvem, a Databricks recomenda que os usuários leiam e gravem todas as tabelas do Unity Catalog usando nomes de tabela e acessem dados em volumes usando caminhos /Volumes.

Próximos passos

Se você está começando a usar o Unity Catalog como administrador, consulte Configurar e gerenciar o Unity Catalog.

Se você for um novo usuário e seu workspace já estiver habilitado para o Unity Catalog, consulte tutorial: Crie sua primeira tabela e conceda privilégios no Unity Catalog.