Delta Lake colunas geradas

info

Visualização

Esse recurso está em Public Preview.

O Delta Lake suporta colunas geradas, que são um tipo especial de coluna cujos valores são gerados automaticamente com base em uma função especificada pelo usuário sobre outras colunas na tabela Delta. Quando o senhor escreve em uma tabela com colunas geradas e não fornece explicitamente valores para elas, o site Delta Lake calcula automaticamente os valores. Por exemplo, você pode gerar automaticamente uma coluna de data (para particionar a tabela por data) a partir da coluna de carimbo de data/hora; qualquer gravação na tabela só precisa especificar os dados da coluna de carimbo de data/hora. No entanto, se você fornecer valores explicitamente para eles, os valores devem satisfazer a restrição (<value> <=> <generation expression>) IS TRUE ou a gravação falhará com um erro.

important

As tabelas criadas com colunas geradas têm uma versão de protocolo de gravação de tabela mais alta do que a default. Consulte How does Databricks gerenciar Delta Lake recurso compatibility? para entender o versionamento de protocolo de tabela e o que significa ter uma versão mais alta de uma versão de protocolo de tabela.

Crie uma tabela com colunas geradas

O exemplo a seguir mostra como criar uma tabela com colunas geradas:

SQL
Python
Scala

SQL
CREATE TABLE default.people10m (
  id INT,
  firstName STRING,
  middleName STRING,
  lastName STRING,
  gender STRING,
  birthDate TIMESTAMP,
  dateOfBirth DATE GENERATED ALWAYS AS (CAST(birthDate AS DATE)),
  ssn STRING,
  salary INT
)

Python
DeltaTable.create(spark) \
  .tableName("default.people10m") \
  .addColumn("id", "INT") \
  .addColumn("firstName", "STRING") \
  .addColumn("middleName", "STRING") \
  .addColumn("lastName", "STRING", comment = "surname") \
  .addColumn("gender", "STRING") \
  .addColumn("birthDate", "TIMESTAMP") \
  .addColumn("dateOfBirth", DateType(), generatedAlwaysAs="CAST(birthDate AS DATE)") \
  .addColumn("ssn", "STRING") \
  .addColumn("salary", "INT") \
  .execute()

Scala
DeltaTable.create(spark)
  .tableName("default.people10m")
  .addColumn("id", "INT")
  .addColumn("firstName", "STRING")
  .addColumn("middleName", "STRING")
  .addColumn(
    DeltaTable.columnBuilder("lastName")
      .dataType("STRING")
      .comment("surname")
      .build())
  .addColumn("lastName", "STRING", comment = "surname")
  .addColumn("gender", "STRING")
  .addColumn("birthDate", "TIMESTAMP")
  .addColumn(
    DeltaTable.columnBuilder("dateOfBirth")
     .dataType(DateType)
     .generatedAlwaysAs("CAST(dateOfBirth AS DATE)")
     .build())
  .addColumn("ssn", "STRING")
  .addColumn("salary", "INT")
  .execute()

As colunas geradas são armazenadas como se fossem colunas normais. Ou seja, eles ocupam o armazenamento.

As seguintes restrições se aplicam às colunas geradas:

Uma expressão de geração pode usar quaisquer funções SQL no Spark que sempre retornam o mesmo resultado quando recebem os mesmos valores de argumento, exceto os seguintes tipos de funções:
- Funções definidas pelo usuário.
- Funções agregadas.
- Funções da janela.
- Funções que retornam várias linhas.

O Delta Lake pode gerar filtros de partição para uma consulta sempre que uma coluna de partição for definida por uma das seguintes expressões:

nota

O Photon é necessário no Databricks Runtime 10.4 LTS e abaixo. Photon não é necessário em Databricks Runtime 11.3 LTS e acima.

CAST(col AS DATE) e o tipo de col é TIMESTAMP.
YEAR(col) e o tipo de col é TIMESTAMP.
Duas colunas de partição definidas por YEAR(col), MONTH(col) e o tipo de col é TIMESTAMP.
Três colunas de partição definidas por YEAR(col), MONTH(col), DAY(col) e o tipo de col é TIMESTAMP.
Quatro colunas de partição definidas por YEAR(col), MONTH(col), DAY(col), HOUR(col) e o tipo de col é TIMESTAMP.
SUBSTRING(col, pos, len) e o tipo de col é STRING
DATE_FORMAT(col, format) e o tipo de col é TIMESTAMP.
- Você só pode usar formatos de data com os seguintes padrões: yyyy-MM e yyyy-MM-dd-HH.
- No Databricks Runtime 10.4 LTSe acima, você também pode usar o seguinte padrão: yyyy-MM-dd.

Se uma coluna de partição for definida por uma das expressões anteriores e uma consulta filtrar o uso de dados da coluna de base subjacente de uma expressão de geração, o site Delta Lake examinará a relação entre a coluna de base e a coluna gerada e preencherá os filtros de partição com base na coluna de partição gerada, se possível. Por exemplo, dada a tabela a seguir:

SQL
CREATE TABLE events(
eventId BIGINT,
data STRING,
eventType STRING,
eventTime TIMESTAMP,
eventDate date GENERATED ALWAYS AS (CAST(eventTime AS DATE))
)
PARTITIONED BY (eventType, eventDate)

Se o senhor executar a seguinte consulta:

SQL
SELECT * FROM events
WHERE eventTime >= "2020-10-01 00:00:00" <= "2020-10-01 12:00:00"

O Delta Lake gera automaticamente um filtro de partição para que a consulta anterior leia apenas os dados na partição date=2020-10-01, mesmo que um filtro de partição não seja especificado.

Como outro exemplo, dada a tabela a seguir:

SQL
CREATE TABLE events(
eventId BIGINT,
data STRING,
eventType STRING,
eventTime TIMESTAMP,
year INT GENERATED ALWAYS AS (YEAR(eventTime)),
month INT GENERATED ALWAYS AS (MONTH(eventTime)),
day INT GENERATED ALWAYS AS (DAY(eventTime))
)
PARTITIONED BY (eventType, year, month, day)

Se o senhor executar a seguinte consulta:

SQL
SELECT * FROM events
WHERE eventTime >= "2020-10-01 00:00:00" <= "2020-10-01 12:00:00"

O Delta Lake gera automaticamente um filtro de partição para que a consulta anterior leia apenas os dados na partição year=2020/month=10/day=01, mesmo que um filtro de partição não seja especificado.

O senhor pode usar uma cláusula EXPLAIN e verificar o plano fornecido para ver se o Delta Lake gera automaticamente algum filtro de partição.

Use colunas de identidade em Delta Lake

important

A declaração de uma coluna de identidade em uma tabela Delta desativa as transações concorrente. Use colunas de identidade somente em casos de uso em que não sejam necessárias gravações simultâneas na tabela de destino.

As colunas de identidade Delta Lake são um tipo de coluna gerada que atribui valores exclusivos para cada registro inserido em uma tabela. O exemplo a seguir mostra a sintaxe básica para declarar uma coluna de identidade durante uma instrução create table:

SQL
Python
Scala

SQL
CREATE TABLE table_name (
  id_col1 BIGINT GENERATED ALWAYS AS IDENTITY,
  id_col2 BIGINT GENERATED ALWAYS AS IDENTITY (START WITH -1 INCREMENT BY 1),
  id_col3 BIGINT GENERATED BY DEFAULT AS IDENTITY,
  id_col4 BIGINT GENERATED BY DEFAULT AS IDENTITY (START WITH -1 INCREMENT BY 1)
 )

Python
from delta.tables import DeltaTable, IdentityGenerator
from pyspark.sql.types import LongType

DeltaTable.create()
  .tableName("table_name")
  .addColumn("id_col1", dataType=LongType(), generatedAlwaysAs=IdentityGenerator())
  .addColumn("id_col2", dataType=LongType(), generatedAlwaysAs=IdentityGenerator(start=-1, step=1))
  .addColumn("id_col3", dataType=LongType(), generatedByDefaultAs=IdentityGenerator())
  .addColumn("id_col4", dataType=LongType(), generatedByDefaultAs=IdentityGenerator(start=-1, step=1))
  .execute()

Scala
import io.delta.tables.DeltaTable
import org.apache.spark.sql.types.LongType

DeltaTable.create(spark)
  .tableName("table_name")
  .addColumn(
    DeltaTable.columnBuilder(spark, "id_col1")
      .dataType(LongType)
      .generatedAlwaysAsIdentity().build())
  .addColumn(
    DeltaTable.columnBuilder(spark, "id_col2")
      .dataType(LongType)
      .generatedAlwaysAsIdentity(start = -1L, step = 1L).build())
  .addColumn(
    DeltaTable.columnBuilder(spark, "id_col3")
      .dataType(LongType)
      .generatedByDefaultAsIdentity().build())
  .addColumn(
    DeltaTable.columnBuilder(spark, "id_col4")
      .dataType(LongType)
      .generatedByDefaultAsIdentity(start = -1L, step = 1L).build())
  .execute()

nota

Scala e Python APIs para colunas de identidade estão disponíveis em Databricks Runtime 16.0 e acima.

Para ver todas as opções de sintaxe SQL para criar tabelas com colunas de identidade, consulte CREATE TABLE [USING].

Opcionalmente, você pode especificar o seguinte:

Um valor inicial.
Um tamanho de passo, que pode ser positivo ou negativo.

Tanto o valor inicial quanto o tamanho da etapa default para 1. Você não pode especificar um tamanho de etapa de 0.

Os valores atribuídos pelas colunas de identidade são exclusivos e aumentam na direção da etapa especificada e em múltiplos do tamanho da etapa especificada, mas não é garantido que sejam contíguos. Por exemplo, com um valor inicial de 0 e um tamanho de passo de 2, todos os valores são números pares positivos, mas alguns números pares podem ser ignorados.

Ao usar a cláusula GENERATED BY DEFAULT AS IDENTITY, as operações de inserção podem especificar valores para a coluna de identidade. Modifique a cláusula para GENERATED ALWAYS AS IDENTITY para substituir a capacidade de definir valores manualmente.

As colunas de identidade suportam apenas o tipo BIGINT e as operações falham se o valor atribuído exceder o intervalo suportado por BIGINT.

Para saber como sincronizar os valores da coluna de identidade com os dados, consulte a cláusula ALTER TABLE ... COLUMN.

CTAS e colunas de identidade

Você não pode definir esquema, restrições de coluna de identidade ou qualquer outra especificação de tabela ao usar uma instrução CREATE TABLE table_name AS SELECT (CTAS).

Para criar uma nova tabela com uma coluna de identidade e preenchê-la com dados existentes, faça o seguinte:

Crie uma tabela com o esquema correto, incluindo a definição da coluna de identidade e outras propriedades da tabela.
execução e INSERT operações.

O exemplo a seguir usa a palavra-chave DEFAULT para definir a coluna de identidade. Se os dados inseridos na tabela incluírem valores válidos para a coluna de identidade, esses valores serão usados.

SQL
CREATE OR REPLACE TABLE new_table (
  id BIGINT GENERATED BY DEFAULT AS IDENTITY (START WITH 5),
  event_date DATE,
  some_value BIGINT
);

-- Inserts records including existing IDs
INSERT INTO new_table
SELECT id, event_date, some_value FROM old_table;

-- Insert records and generate new IDs
INSERT INTO new_table
SELECT event_date, some_value FROM new_records;

Limitações da coluna de identidade

As seguintes limitações existem ao trabalhar com colunas de identidade:

As transações concorrente não são suportadas em tabelas com colunas de identidade ativadas.
Você não pode particionar uma tabela por uma coluna de identidade.
Você não pode usar ALTER TABLE a ADD, REPLACE ou CHANGE como coluna de identidade.
Você não pode atualizar o valor de uma coluna de identidade para um registro existente.

nota

Para alterar o valor IDENTITY de um registro existente, você deve excluir o registro e INSERT dele como um novo registro.

Crie uma tabela com colunas geradas​

Use colunas de identidade em Delta Lake​

CTAS e colunas de identidade​

Limitações da coluna de identidade​

Crie uma tabela com colunas geradas

Use colunas de identidade em Delta Lake

CTAS e colunas de identidade

Limitações da coluna de identidade