Use o pipeline Delta Live Tables com o legado Hive metastore

Este artigo detalha as configurações e advertências específicas do pipeline Delta Live Tables configurado para publicar dados no legado Hive metastore. Databricks recomenda o uso do site Unity Catalog para todos os novos pipelines. Consulte Usar Unity Catalog com seu pipeline Delta Live Tables .

Observação

Este artigo discute a funcionalidade do modo de publicação atual do default para pipeline. O pipeline criado antes de 5 de fevereiro de 2025 pode usar o modo de publicação herdado e o esquema virtual LIVE. Consulte esquema LIVE (legado).

Como consultar tabelas de transmissão e visualizações materializadas no legado Hive metastore

Após a conclusão da atualização, o senhor pode acessar view o esquema e as tabelas, consultar os dados ou usar os dados em aplicativos downstream.

Depois de publicadas, as tabelas do Delta Live Tables podem ser consultadas em qualquer ambiente com acesso ao esquema de destino. Isso inclui o Databricks SQL, o Notebook e outros pipelines do Delta Live Tables.

Importante

Quando você cria uma configuração target, somente tabelas e metadados associados são publicados. não são publicadas no metastore.

Configurar um pipeline para publicar no Hive metastore

Ao criar um novo pipeline, o senhor pode especificar Hive metastore nas opções de armazenamento para publicar no site legado Hive metastore. O senhor deve especificar um esquema de destino default ao publicar em Hive metastore. Consulte Configurar um pipeline do Delta Live Tables.

Especifique um local de armazenamento

O senhor pode especificar um local de armazenamento para um pipeline que é publicado no site Hive metastore. A principal motivação para especificar um local é controlar o local de armazenamento de objetos para os dados gravados pelo pipeline. Databricks Recomenda-se sempre especificar um local de armazenamento para evitar gravar no site DBFS root.

Como todas as tabelas, dados, pontos de verificação e metadados do pipeline Delta Live Tables são totalmente gerenciados por Delta Live Tables, a maior parte da interação com o conjunto de dados Delta Live Tables ocorre por meio de tabelas registradas em Hive metastore ou Unity Catalog.

Configuração do armazenamento em nuvem

Para acessar um bucket em Google Cloud Storage (GCS), o senhor deve criar um serviço account com acesso a esse bucket GCS e adicionar esse serviço account às configurações cluster. Para obter mais informações sobre como criar um serviço de nuvem do Google account, consulte Conectar-se a Google Cloud Storage. O senhor pode adicionar a configuração do serviço account ao criar ou editar um pipeline com o Delta Live Tables API ou na interface do usuário Delta Live Tables:

  1. Na página de detalhes do pipeline do site pipeline, clique no botão Settings (Configurações ). A página de configurações do pipeline é exibida.

  2. Clique no botão JSON.

  3. Digite a configuração do serviço account no campo gcp_attributes.google_service_account na configuração cluster:

{
  "clusters": [
    {
      "gcp_attributes": {
        "google_service_account": "test-gcs-doc@databricks-dev.iam.gserviceaccount.com"
      }
    }
  ]
}

Trabalhar com o evento log para o pipeline Hive metastore

Se o seu pipeline publica tabelas no Hive metastore, o evento log é armazenado em /system/events no local storage. Por exemplo, se o senhor tiver configurado o pipeline storage como /Users/username/data, o log de eventos será armazenado no caminho /Users/username/data/system/events no DBFS.

Se o senhor não tiver definido a configuração storage, o local do evento default log será /pipelines/<pipeline-id>/system/events em DBFS. Por exemplo, se o ID do seu pipeline for 91de5e48-35ed-11ec-8d3d-0242ac130003, o local de armazenamento será /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

O senhor pode criar um view para simplificar a consulta do evento log. O exemplo a seguir cria um view temporário chamado event_log_raw. Esse view é usado no exemplo de consultas do evento log incluídas neste artigo:

CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Substitua <event-log-path> pelo local do evento log.

Cada instância de uma execução de pipeline é chamada de atualização. O senhor geralmente deseja extrair informações para a atualização mais recente. Execute a consulta a seguir para encontrar o identificador da atualização mais recente e salve-o na pasta temporária latest_update_id view. Esse view é usado no exemplo de consultas do evento log incluídas neste artigo:

CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

O senhor pode consultar o evento log in em um notebook Databricks ou no editorSQL . Use um Notebook ou o editor SQL para executar o evento de exemplo log queries.

Exemplo pipeline código-fonte Notebook para o espaço de trabalho sem Unity Catalog

O senhor pode importar o seguinte Notebook para um Databricks workspace sem o Unity Catalog habilitado e usá-lo para implantar um Delta Live Tables pipeline. Importe o Notebook do idioma escolhido e especifique o caminho no campo Código-fonte ao configurar um pipeline com a opção de armazenamento Hive metastore opção de armazenamento. Consulte Configurar um pipeline do Delta Live Tables.

Comece a usar o notebook Python Delta Live Tables

Abra o bloco de anotações em outra guia

Comece a usar o notebook SQL Delta Live Tables

Abra o bloco de anotações em outra guia