Publicar dados de pipelines Delta Live Tables no Hive metastore

Você pode tornar os dados de saída de seu pipeline detectáveis e disponíveis para query publicando dataset no Hive metastore. Para publicar dataset no metastore, insira um nome de esquema no campo Destino ao criar um pipeline. Você também pode adicionar um banco de dados de destino a um pipeline existente.

Por default, todas as tabelas e view criadas em Delta Live Tables são locais para o pipeline. Você deve publicar tabelas em um esquema de destino para query ou usar dataset Delta Live Tables fora do pipeline no qual elas são declaradas.

Para publicar tabelas de seus pipelines no Unity Catalog, consulte Usar Unity Catalog com seus pipelines Delta Live Tables.

Como publicar conjuntos de dados Delta Live Tables em um esquema

Você pode declarar um esquema de destino para todas as tabelas em seu pipeline Delta Live Tables usando o campo Esquema de destino nas configurações do pipeline e Criar interfaces de usuário do pipeline .

Você também pode especificar um esquema em uma configuração JSON definindo o valor target .

Você deve executar uma atualização para o pipeline para publicar os resultados no esquema de destino.

Você pode usar esse recurso com várias configurações de ambiente para publicar em diferentes esquemas com base no ambiente. Por exemplo, você pode publicar em um esquema dev para desenvolvimento e um esquema prod para dados de produção.

Como consultar conjuntos de dados em Delta Live Tables

Após a conclusão de uma atualização, você pode view o esquema e as tabelas, query os dados ou usar os dados em aplicativos downstream.

Depois de publicadas, as tabelas Delta Live Tables podem ser query em qualquer ambiente com acesso ao esquema de destino. Isso inclui Databricks SQL, Notebook e outros pipelines Delta Live Tables.

Importante

Quando você cria uma configuração target , apenas tabelas e metadados associados são publicados. view não são publicados no metastore.

Excluir tabelas do esquema de destino

Se precisar calcular tabelas intermediárias que não se destinam ao consumo externo, você poderá impedir que elas sejam publicadas em um esquema usando a palavra-chave TEMPORARY . As tabelas temporárias ainda armazenam e processam dados de acordo com a semântica do Delta Live Tables, mas não devem ser acessadas fora do pipeline atual. Uma tabela temporária persiste durante a vida útil do pipeline que a cria. Use a seguinte sintaxe para declarar tabelas temporárias:

CREATE TEMPORARY LIVE TABLE temp_table
AS SELECT ... ;
@dlt.table(
  temporary=True)
def temp_table():
  return ("...")