Use o pipeline Delta Live Tables com o legado Hive metastore

Este artigo detalha as configurações e advertências específicas do pipeline Delta Live Tables configurado para publicar dados no legado Hive metastore. Databricks recomenda o uso do site Unity Catalog para todos os novos pipelines. Consulte Usar Unity Catalog com seu pipeline Delta Live Tables .

Publicar o conjunto de dados pipeline no legado Hive metastore

Embora seja opcional, o senhor deve especificar um destino para publicar tabelas criadas pelo seu pipeline sempre que for além do desenvolvimento e do teste de um novo pipeline. A publicação de um pipeline em um destino torna o conjunto de dados disponível para consulta em qualquer lugar do seu ambiente Databricks.

O senhor pode tornar os dados de saída do seu pipeline detectáveis e disponíveis para consulta publicando o conjunto de dados no Hive metastore. Para publicar o conjunto de dados no metastore, insira um nome de esquema no campo Target (Destino ) quando o senhor criar um pipeline. O senhor também pode adicionar um banco de dados de destino a um pipeline existente.

Todas as tabelas e visualizações criadas em Delta Live Tables são locais para o pipeline por default. O senhor deve publicar tabelas em um esquema de destino para consultar ou usar o conjunto de dados Delta Live Tables fora do pipeline no qual elas são declaradas.

Para publicar tabelas do seu pipeline em Unity Catalog, consulte Use Unity Catalog with your Delta Live Tables pipeline.

Como publicar o conjunto de dados Delta Live Tables no legado Hive metastore

O senhor pode declarar um esquema de destino para todas as tabelas em seu Delta Live Tables pipeline usando o campo Target schema (Esquema de destino ) nas configurações do pipeline e em Create pipeline UIs.

O senhor também pode especificar um esquema em uma configuração JSON definindo o valor target.

O senhor deve executar uma atualização para que o site pipeline publique os resultados no esquema de destino.

O senhor pode usar esse recurso com várias configurações de ambiente para publicar em diferentes esquemas com base no ambiente. Por exemplo, você pode publicar em um esquema dev para desenvolvimento e um esquema prod para dados de produção.

Como consultar tabelas de transmissão e visualizações materializadas no legado Hive metastore

Após a conclusão da atualização, o senhor pode acessar view o esquema e as tabelas, consultar os dados ou usar os dados em aplicativos downstream.

Depois de publicadas, as tabelas do Delta Live Tables podem ser consultadas em qualquer ambiente com acesso ao esquema de destino. Isso inclui o Databricks SQL, o Notebook e outros pipelines do Delta Live Tables.

Importante

Quando você cria uma configuração target, somente tabelas e metadados associados são publicados. não são publicadas no metastore.

Especifique um local de armazenamento

O senhor pode especificar um local de armazenamento para um pipeline que é publicado no site Hive metastore. A principal motivação para especificar um local é controlar o local de armazenamento de objetos para os dados gravados pelo pipeline.

Como todas as tabelas, dados, pontos de verificação e metadados do pipeline Delta Live Tables são totalmente gerenciados por Delta Live Tables, a maior parte da interação com o conjunto de dados Delta Live Tables ocorre por meio de tabelas registradas em Hive metastore ou Unity Catalog.

Configuração do armazenamento em nuvem

Para acessar um bucket em Google Cloud Storage (GCS), o senhor deve criar um serviço account com acesso a esse bucket GCS e adicionar esse serviço account às configurações cluster. Para obter mais informações sobre como criar um serviço de nuvem do Google account, consulte Conectar-se a Google Cloud Storage. O senhor pode adicionar a configuração do serviço account ao criar ou editar um pipeline com o Delta Live Tables API ou na interface do usuário Delta Live Tables:

  1. Na página de detalhes do pipeline do site pipeline, clique no botão Settings (Configurações ). A página de configurações do pipeline é exibida.

  2. Clique no botão JSON.

  3. Digite a configuração do serviço account no campo gcp_attributes.google_service_account na configuração cluster:

{
  "clusters": [
    {
      "gcp_attributes": {
        "google_service_account": "test-gcs-doc@databricks-dev.iam.gserviceaccount.com"
      }
    }
  ]
}