Trabalhe com Unity Catalog e o Hive metastore

Este artigo explica uma abordagem para continuar a usar o per-workspace Hive metastore quando o seu Databricks workspace estiver habilitado para Unity Catalog.

Se o seu workspace estava em serviço antes de ser habilitado para Unity Catalog, ele provavelmente tem um Hive metastore integrado que contém dados que o senhor deseja continuar a usar. Databricks recomenda que o senhor use a federaçãoHive metastore para criar um catálogo federado em Unity Catalog que espelhe o Hive metastore e, por fim, migre todas as suas cargas de trabalho legadas para usar esse catálogo federado. No entanto, se o senhor ainda não tiver começado o processo de federação Hive metastore, poderá usar este artigo para aprender a trabalhar com dados registrados em seu legado Hive metastore juntamente com os dados registrados em Unity Catalog.

Consultar o Hive metastore no Unity Catalog

O metastore do Unity Catalog é aditivo, o que significa que pode ser usado com oHive metastore por workspace no Databricks. O Hive metastore aparece como um catálogo de nível superior chamado hive_metastore no namespace de três níveis.

Por exemplo, você pode se referir a uma tabela chamada sales_raw no esquema sales no Hive metastore usando a seguinte notação:

SELECT * from hive_metastore.sales.sales_raw;
display(spark.table("hive_metastore.sales.sales_raw"))
library(SparkR)

display(tableToDF("hive_metastore.sales.sales_raw"))
display(spark.table("hive_metastore.sales.sales_raw"))

Você também pode especificar o catálogo e o esquema com uma instrução USE :

USE hive_metastore.sales;
SELECT * from sales_raw;
spark.sql("USE hive_metastore.sales")
display(spark.table("sales_raw"))
library(SparkR)

sql("USE hive_metastore.sales")
display(tableToDF("sales_raw"))
spark.sql("USE hive_metastore.sales")
display(spark.table("sales_raw"))

Controle de acesso no Unity Catalog e no Hive metastore

Se o senhor configurou o controle de acesso legado da tabela em Hive metastore, Databricks continuará a aplicar esses controles de acesso aos dados no catálogo hive_metastore para clustering em execução no modo de acesso compartilhado. O modelo de acesso do Unity Catalog difere um pouco dos controles de acesso legados, como a ausência de declarações DENY. O Hive metastore é um objeto de nível workspace. As permissões definidas no catálogo hive_metastore sempre se referem aos usuários e grupos locais no site workspace. Consulte o modelo de privilégio Unity Catalog em comparação com o controle de acesso legado da tabela.

O modelo de privilégio Unity Catalog comparado ao controle de acesso legado da tabela

O modelo de controle de acesso em Unity Catalog difere das seguintes formas do controle de acesso da tabela no legado Hive metastore:

  • grupos de contas: As políticas de controle de acesso em Unity Catalog são aplicadas aos grupos account, enquanto as políticas de controle de acesso para Hive metastore são aplicadas aos grupos workspace-local. Consulte Tipos de grupos em Databricks.

  • As permissõesUSE CATALOG e USE SCHEMA são necessárias no catálogo e esquema para todas as operações em objetos dentro do catálogo ou esquema: independentemente dos privilégios de um principal em uma tabela, o principal também deve ter o privilégio USE CATALOG em seu catálogo pai para acessar o esquema e o privilégio USE SCHEMA para acessar objetos dentro do esquema. Por outro lado, com o controle de acesso no nível workspaceda tabela, conceder USAGE no catálogo raiz concede automaticamente USAGE em todos os bancos de dados, mas USAGE no catálogo raiz não é necessário.

  • view: No Unity Catalog, o proprietário de uma view não precisa ser um proprietário das tabelas e view referenciadasda view. Ter o privilégio SELECT é suficiente, junto com USE SCHEMA no esquema pai da viewe USE CATALOG no catálogo pai. Com o controle de acesso no nível workspaceda tabela, o proprietário de uma viewprecisa ser o proprietário de todas as tabelas e view referenciadas.

  • Não há suporte para ANY FILE ou ANONYMOUS FUNCTION: Em Unity Catalog, não há nenhum conceito de ANY FILE ou ANONYMOUS FUNCTION securizável que possa permitir que um usuário sem privilégios execute código privilegiado.

  • Sem privilégio READ_METADATA : Unity Catalog gerenciar o acesso aos metadados de view de uma maneira diferente. Consulte Privilégios e objetos protegidos do Unity Catalog.

Junções entre Unity Catalog e objetos Hive metastore

Ao usar a notação de namespace de três níveis, você pode join dados em um metastore Unity Catalog com dados no Hive metastore.

Observação

Uma join com dados no Hive metastore só funcionará no workspace onde esses dados residem. Tentar executar tal join em outro workspace resulta em erro. Databricks recomenda que você atualize as tabelas herdadas e view para Unity Catalog.

O exemplo a seguir resulta da join da tabela sales_current no Hive metastore com a tabela sales_historical no metastore do Unity Catalog quando os campos order_id são iguais.

SELECT * FROM hive_metastore.sales.sales_current
JOIN main.shared_sales.sales_historical
ON hive_metastore.sales.sales_current.order_id = main.shared_sales.sales_historical.order_id;
dfCurrent = spark.table("hive_metastore.sales.sales_current")
dfHistorical = spark.table("main.shared_sales.sales_historical")

display(dfCurrent.join(
  other = dfHistorical,
  on = dfCurrent.order_id == dfHistorical.order_id
))
library(SparkR)

dfCurrent = tableToDF("hive_metastore.sales.sales_current")
dfHistorical = tableToDF("main.shared_sales.sales_historical")

display(join(
  x = dfCurrent,
  y = dfHistorical,
  joinExpr = dfCurrent$order_id == dfHistorical$order_id))
val dfCurrent = spark.table("hive_metastore.sales.sales_current")
val dfHistorical = spark.table("main.shared_sales.sales_historical")

display(dfCurrent.join(
  right = dfHistorical,
  joinExprs = dfCurrent("order_id") === dfHistorical("order_id")
))

catálogo padrão

Um catálogo default é configurado para cada workspace habilitado para o Unity Catalog.

Se você omitir o nome do catálogo de nível superior ao executar operações de dados, o catálogo default será assumido.

O catálogo default que foi inicialmente configurado para seu workspace depende de como seu workspace foi habilitado para o Unity Catalog:

  • Se o seu workspace foi ativado automaticamente para Unity Catalog , o catálogoworkspace foi definido como o catálogo default . Consulte Ativação automática do Unity Catalog.

  • Se seu workspace foi ativado manualmente para Unity Catalog , o catálogo hive_metastore foi definido como o catálogo default .

Se o senhor estiver fazendo a transição de Hive metastore para Unity Catalog dentro de um workspace existente, faz sentido usar hive_metastore como o catálogo default para evitar afetar o código existente que faz referência ao Hive metastore, a menos que tenha migrado totalmente do Hive metastore.

Para saber como obter e alternar o catálogo default, consulte gerenciar o catálogo default

permissões de acesso a dados com escopo clusters

Quando você usa o Hive metastore junto com o Unity Catalog, as credenciais de acesso a dados associadas aos clusters são usadas para acessar os dados Hive metastore , mas não os dados registrados no Unity Catalog.

Se os usuários acessarem caminhos que estão fora do Unity Catalog (como um caminho não registrado como uma tabela ou local externo), as credenciais de acesso atribuídas aos clusters serão usadas.

Consulte Conectar-se ao Google Cloud Storage.

Atualizar tabelas legadas para o Unity Catalog

As tabelas no site Hive metastore não se beneficiam do conjunto completo de recursos de segurança e governança que o site Unity Catalog apresenta, como auditoria integrada, linhagem e controle de acesso. Databricks recomenda que o senhor use a federaçãoHive metastore para migrar seus dados registrados em Hive metastore para Unity Catalog ou para atualizar suas tabelas legadas diretamente, adicionando-as a Unity Catalog.