Guia da API Delta Live Tables

Importante

O conteúdo deste artigo foi retirado e pode não ser atualizado. Consulte Delta Live Tables na Referência da API REST do Databricks.

A API Delta Live Tables permite que você crie, edite, exclua, comece e view detalhes sobre pipelines.

Importante

Para acessar APIs REST do Databricks, você deve autenticar o.

Criar um pipeline

endpoint

Método HTTP

2.0/pipelines

POST

Cria um novo pipeline Delta Live Tables.

Exemplo

Este exemplo cria um novo pipeline acionado.

Solicitar

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json

pipeline-settings.json:

{
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "continuous": false
}

Substituir:

Este exemplo usa um .netrc arquivo.

Resposta

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}

Estrutura do pedido

Consulte Configurações de pipeline.

Estrutura de resposta

Nome do campo

Tipo

Descrição

pipeline_id

STRING

O identificador exclusivo do pipeline recém-criado.

Editar um pipeline

endpoint

Método HTTP

2.0/pipelines/{pipeline_id}

PUT

Atualiza as configurações de um pipeline existente.

Exemplo

Este exemplo adiciona um parâmetro target ao pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Solicitar

curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json

pipeline-settings.json

{
  "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "target": "wikipedia_quickstart_data",
  "continuous": false
}

Substituir:

Este exemplo usa um .netrc arquivo.

Estrutura do pedido

Consulte Configurações de pipeline.

Excluir um pipeline

endpoint

Método HTTP

2.0/pipelines/{pipeline_id}

DELETE

Exclui um pipeline do sistema Delta Live Tables.

Exemplo

Este exemplo exclui o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Solicitar

curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Substituir:

Este exemplo usa um .netrc arquivo.

começar uma atualização de pipeline

endpoint

Método HTTP

2.0/pipelines/{pipeline_id}/updates

POST

começar uma atualização para um pipeline. Você pode começar uma atualização para todo o grafo do pipeline, ou uma atualização seletiva de tabelas específicas.

Exemplos

começar uma atualização completa

Este exemplo começa uma atualização com refresh completa para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'

Substituir:

Este exemplo usa um .netrc arquivo.

Resposta
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

começar uma atualização das mesas selecionadas

Este exemplo começa uma atualização que refresh as tabelas sales_orders_cleaned e sales_order_in_chicago no pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'

Substituir:

Este exemplo usa um .netrc arquivo.

Resposta
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

começar uma atualização completa das mesas selecionadas

Este exemplo começa uma atualização das tabelas sales_orders_cleaned e sales_order_in_chicago e uma atualização com refresh completa das tabelas customers e sales_orders_raw no pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'

Substituir:

Este exemplo usa um .netrc arquivo.

Resposta
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Estrutura do pedido

Nome do campo

Tipo

Descrição

full_refresh

BOOLEAN

Se todos os dados devem ser reprocessados. Se true, o sistema Delta Live Tables Reset todas as tabelas que podem ser reconfiguradas antes de executar o pipeline.

Este campo é opcional.

O valor default é false.

Um erro será retornado se full_refesh for verdadeiro e refresh_selection ou full_refresh_selection for definido.

refresh_selection

Uma matriz de STRING

Uma lista de tabelas a serem atualizadas. Use refresh_selection para iniciar uma refresh de um conjunto selecionado de tabelas no gráfico de pipeline.

Este campo é opcional. Se refresh_selection e full_refresh_selection estiverem vazios, todo o gráfico do pipeline será atualizado.

Um erro é retornado se:

  • full_refesh é verdadeiro e refresh_selection está definido.

  • Uma ou mais das tabelas especificadas não existem no gráfico do pipeline.

full_refresh_selection

Uma matriz de STRING

Uma lista de tabelas a serem atualizadas com refresh completa. Use full_refresh_selection para iniciar uma atualização de um conjunto de tabelas selecionado. Os estados das tabelas especificadas são Reset antes que o sistema Delta Live Tables comece a atualização.

Este campo é opcional. Se refresh_selection e full_refresh_selection estiverem vazios, todo o gráfico do pipeline será atualizado.

Um erro é retornado se:

  • full_refesh é verdadeiro e refresh_selection está definido.

  • Uma ou mais das tabelas especificadas não existem no gráfico do pipeline.

  • Uma ou mais das tabelas especificadas não podem ser reconfiguradas.

Estrutura de resposta

Nome do campo

Tipo

Descrição

update_id

STRING

O identificador exclusivo da atualização recém-criada.

request_id

STRING

O identificador único da solicitação que inicia a atualização.

Obtenha o status de uma solicitação de atualização de pipeline

endpoint

Método HTTP

2.0/pipelines/{pipeline_id}/requests/{request_id}

GET

Obtém o status e as informações para a atualização do pipeline associada a request_id, em que request_id é um identificador exclusivo para a solicitação que inicia a atualização do pipeline. Se a atualização for repetida ou reiniciada, a nova atualização herdará o request_id.

Exemplo

Para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5, este exemplo retorna status e informações para a atualização associada ao ID de solicitação a83d9f7c-d798-4fd5-aa39-301b6e6f4429:

Solicitar

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429

Substituir:

Este exemplo usa um .netrc arquivo.

Resposta

{
   "status": "TERMINATED",
   "latest_update":{
     "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
     "update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
     "config":{
       "id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
       "name": "Retail sales (SQL)",
       "storage": "/Users/username/data",
       "configuration":{
         "pipelines.numStreamRetryAttempts": "5"
       },
       "clusters":[
         {
           "label": "default",
           "autoscale":{
             "min_workers": 1,
             "max_workers": 5,
             "mode": "ENHANCED"
           }
         }
       ],
       "libraries":[
         {
           "notebook":{
             "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
           }
         }
       ],
       "continuous": false,
       "development": true,
       "photon": true,
       "edition": "advanced",
       "channel": "CURRENT"
     },
     "cause": "API_CALL",
     "state": "COMPLETED",
     "cluster_id": "1234-567891-abcde123",
     "creation_time": 1664304117145,
     "full_refresh": false,
     "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
   }
}

Estrutura de resposta

Nome do campo

Tipo

Descrição

status

STRING

O status da solicitação de atualização do pipeline. Um de

  • ACTIVE: uma atualização para esta solicitação está sendo executada ativamente ou pode ser repetida em uma nova atualização.

  • TERMINATED: A solicitação foi encerrada e não será repetida ou reiniciada.

pipeline_id

STRING

O identificador exclusivo do pipeline.

update_id

STRING

O identificador exclusivo da atualização.

config

Configurações de Pipeline

As configurações do pipeline.

cause

STRING

O gatilho para a atualização. Um de API_CALL, RETRY_ON_FAILURE, SERVICE_UPGRADE, SCHEMA_CHANGE, JOB_TASK ou USER_ACTION.

state

STRING

O estado da atualização. Um de QUEUED, CREATED WAITING_FOR_RESOURCES, INITIALIZING, RESETTING, SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED, FAILED ou CANCELED.

cluster_id

STRING

O identificador dos clusters que executam a atualização.

creation_time

INT64

O timestamp quando a atualização foi criada.

full_refresh

BOOLEAN

Se esta atualização Reset todas as tabelas antes de executar

refresh_selection

Uma matriz de STRING

Uma lista de tabelas a serem atualizadas sem refresh completa.

full_refresh_selection

Uma matriz de STRING

Uma lista de tabelas a serem atualizadas com refresh completa.

request_id

STRING

O identificador único da solicitação que inicia a atualização. Este é o valor retornado pela solicitação de atualização . Se a atualização for repetida ou reiniciada, a nova atualização herdará o request_id. No entanto, o update_id será diferente.

Interrompa qualquer atualização de pipeline ativa

endpoint

Método HTTP

2.0/pipelines/{pipeline_id}/stop

POST

Interrompe qualquer atualização de pipeline ativa. Se nenhuma atualização estiver em execução, essa solicitação será no-op.

Para um pipeline contínuo, a execução do pipeline é pausada. As tabelas atualmente em processamento concluem a atualização, mas as tabelas downstream não são atualizadas. Na próxima atualização do pipeline, o Delta Live Tables executa uma refresh selecionada das tabelas que não concluíram o processamento e retoma o processamento do DAG do pipeline restante.

Para um pipeline acionado, a execução do pipeline é interrompida. As tabelas atualmente em processamento concluem a atualização, mas as tabelas downstream não são atualizadas. Na próxima atualização do pipeline, Delta Live Tables refresh todas as tabelas.

Exemplo

Este exemplo interrompe uma atualização para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Solicitar

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop

Substituir:

Este exemplo usa um .netrc arquivo.

Listar eventos de pipeline

endpoint

Método HTTP

2.0/pipelines/{pipeline_id}/events

GET

Recupera eventos para um pipeline.

Exemplo

Este exemplo recupera no máximo 5 eventos para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Solicitar

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5

Substituir:

Este exemplo usa um .netrc arquivo.

Estrutura do pedido

Nome do campo

Tipo

Descrição

page_token

STRING

tokens de página retornados pela chamada anterior. Este campo é mutuamente exclusivo com todos os campos desta solicitação, exceto max_results. Um erro será retornado se quaisquer campos diferentes de max_results forem configurados quando este campo for configurado.

Este campo é opcional.

max_results

INT32

O número máximo de entradas a serem retornadas em uma única página. O sistema pode retornar menos de max_results eventos em uma resposta, mesmo se houver mais eventos disponíveis.

Este campo é opcional.

O valor default é 25.

O valor máximo é 100. Um erro será retornado se o valor de max_results for maior que 100.

order_by

STRING

Uma strings indicando uma ordem de classificação por carimbo de data/hora para os resultados, por exemplo, ["timestamp asc"].

A ordem de classificação pode ser crescente ou decrescente. Por default, os eventos são retornados em ordem decrescente por timestamp.

Este campo é opcional.

filter

STRING

Critérios para selecionar um subconjunto de resultados, expressos usando uma sintaxe semelhante a SQL. Os filtros suportados são:

  • level='INFO' (ou WARN ou ERROR)

  • level in ('INFO', 'WARN')

  • id='[event-id]'

  • timestamp > 'TIMESTAMP' (ou >=,<,<=,=)

Expressões compostas são suportadas, por exemplo: level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z'

Este campo é opcional.

Estrutura de resposta

Nome do campo

Tipo

Descrição

events

Uma matriz de eventos de pipeline.

A lista de eventos que correspondem aos critérios de solicitação.

next_page_token

STRING

Se presente, um tokens para buscar a próxima página de eventos.

prev_page_token

STRING

Se presente, um tokens para buscar a página anterior de eventos.

Obter detalhes do pipeline

endpoint

Método HTTP

2.0/pipelines/{pipeline_id}

GET

Obtém detalhes sobre um pipeline, incluindo as configurações do pipeline e atualizações recentes.

Exemplo

Este exemplo obtém detalhes do pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Solicitar

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Substituir:

Este exemplo usa um .netrc arquivo.

Resposta

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "spec": {
    "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "name": "Wikipedia pipeline (SQL)",
    "storage": "/Users/username/data",
    "clusters": [
      {
        "label": "default",
        "autoscale": {
          "min_workers": 1,
          "max_workers": 5,
          "mode": "ENHANCED"
        }
      }
    ],
    "libraries": [
      {
        "notebook": {
          "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
        }
      }
    ],
    "target": "wikipedia_quickstart_data",
    "continuous": false
  },
  "state": "IDLE",
  "cluster_id": "1234-567891-abcde123",
  "name": "Wikipedia pipeline (SQL)",
  "creator_user_name": "username",
  "latest_updates": [
    {
      "update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
      "state": "COMPLETED",
      "creation_time": "2021-08-13T00:37:30.279Z"
    },
    {
      "update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
      "state": "CANCELED",
      "creation_time": "2021-08-13T00:35:51.902Z"
    },
    {
      "update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
      "state": "FAILED",
      "creation_time": "2021-08-13T00:33:38.565Z"
    }
  ],
  "run_as_user_name": "username"
}

Estrutura de resposta

Nome do campo

Tipo

Descrição

pipeline_id

STRING

O identificador exclusivo do pipeline.

spec

Configurações de Pipeline

As configurações do pipeline.

state

STRING

O estado do pipeline. Um de IDLE ou RUNNING.

Se estado = RUNNING, então há pelo menos uma atualização ativa.

cluster_id

STRING

O identificador dos clusters que executam o pipeline.

name

STRING

O nome amigável para este pipeline.

creator_user_name

STRING

O nome de usuário do criador do pipeline.

latest_updates

Uma matriz de UpdateStateInfo

Status das atualizações mais recentes para o pipeline, ordenadas com a atualização mais recente primeiro.

run_as_user_name

STRING

O nome de usuário que o pipeline executa.

Obter detalhes da atualização

endpoint

Método HTTP

2.0/pipelines/{pipeline_id}/updates/{update_id}

GET

Obtém detalhes para uma atualização de pipeline.

Exemplo

Este exemplo obtém detalhes para atualizar 9a84f906-fc51-11eb-9a03-0242ac130003 para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Solicitar

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003

Substituir:

Este exemplo usa um .netrc arquivo.

Resposta

{
  "update": {
    "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
    "config": {
      "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
      "name": "Wikipedia pipeline (SQL)",
      "storage": "/Users/username/data",
      "configuration": {
        "pipelines.numStreamRetryAttempts": "5"
      },
      "clusters": [
        {
          "label": "default",
          "autoscale": {
            "min_workers": 1,
            "max_workers": 5,
            "mode": "ENHANCED"
          }
        }
      ],
      "libraries": [
        {
          "notebook": {
            "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
          }
        }
      ],
      "target": "wikipedia_quickstart_data",
      "continuous": false,
      "development": false
    },
    "cause": "API_CALL",
    "state": "COMPLETED",
    "creation_time": 1628815050279,
    "full_refresh": true,
    "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
  }
}

Estrutura de resposta

Nome do campo

Tipo

Descrição

pipeline_id

STRING

O identificador exclusivo do pipeline.

update_id

STRING

O identificador exclusivo desta atualização.

config

Configurações de Pipeline

As configurações do pipeline.

cause

STRING

O gatilho para a atualização. Um de API_CALL, RETRY_ON_FAILURE, SERVICE_UPGRADE.

state

STRING

O estado da atualização. Um de QUEUED, CREATED WAITING_FOR_RESOURCES, INITIALIZING, RESETTING, SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED, FAILED ou CANCELED.

cluster_id

STRING

O identificador dos clusters que executam o pipeline.

creation_time

INT64

O timestamp quando a atualização foi criada.

full_refresh

BOOLEAN

Se esta foi uma refresh completa. Se verdadeiro, todas as tabelas de pipeline foram Reset antes de executar a atualização.

Listar pipelines

endpoint

Método HTTP

2.0/pipelines/

GET

Lista os pipelines definidos no sistema Delta Live Tables.

Exemplo

Este exemplo recupera detalhes de pipelines em que o nome contém quickstart:

Solicitar

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27

Substituir:

Este exemplo usa um .netrc arquivo.

Resposta

{
  "statuses": [
    {
      "pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "DLT quickstart (Python)",
      "latest_updates": [
        {
          "update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
          "state": "COMPLETED",
          "creation_time": "2021-08-13T00:34:21.871Z"
        }
      ],
      "creator_user_name": "username"
    },
    {
      "pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "My DLT quickstart example",
      "creator_user_name": "username"
    }
  ],
  "next_page_token": "eyJ...==",
  "prev_page_token": "eyJ..x9"
}

Estrutura do pedido

Nome do campo

Tipo

Descrição

page_token

STRING

tokens de página retornados pela chamada anterior.

Este campo é opcional.

max_results

INT32

O número máximo de entradas a serem retornadas em uma única página. O sistema pode retornar menos de max_results eventos em uma resposta, mesmo se houver mais eventos disponíveis.

Este campo é opcional.

O valor default é 25.

O valor máximo é 100. Um erro será retornado se o valor de max_results for maior que 100.

order_by

Uma matriz de STRING

Uma lista de strings especificando a ordem dos resultados, por exemplo, ["name asc"]. Os campos order_by suportados são id e name. O default é id asc.

Este campo é opcional.

filter

STRING

Selecione um subconjunto de resultados com base nos critérios especificados.

Os filtros suportados são:

"notebook='<path>'" para selecionar pipelines que fazem referência ao caminho Notebook fornecido.

name LIKE '[pattern]' para selecionar pipelines com um nome que corresponda a pattern. Curingas são suportados, por exemplo: name LIKE '%shopping%'

Filtros compostos não são suportados.

Este campo é opcional.

Estrutura de resposta

Nome do campo

Tipo

Descrição

statuses

Uma matriz de PipelineStateInfo

A lista de eventos que correspondem aos critérios de solicitação.

next_page_token

STRING

Se presente, um tokens para buscar a próxima página de eventos.

prev_page_token

STRING

Se presente, um tokens para buscar a página anterior de eventos.

Estruturas de dados

ClusterLogConf

Caminho para logs clusters.

Nome do campo

Tipo

Descrição

DbfsStorageInfo

Localização DBFS de logs clusters. O destino deve ser fornecido. Por exemplo, { "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

DbfsStorageInfo

Informações de armazenamento DBFS.

Nome do campo

Tipo

Descrição

destination

STRING

Destino DBFS. Exemplo: dbfs:/my/path

Atributos clouds do Google

Atributos definidos durante a criação clusters relacionados às clouds do Google.

Nome do campo

Tipo

Descrição

use_preemptible_executors

BOOL

Use executor preemptivo.

google_service_account

STRING

Endereço de serviço do Google account email que os clusters usam para autenticação com o Google Identity. Este campo é usado para autenticação com a fonte de dados do GCS e do BigQuery .

boot_disk_size

INT32

Tamanho, em GB, do disco alocado para cada instância. Este valor deve estar entre 100 e 4096.

Informações de armazenamento do GCSS

Informações de armazenamento do Google Cloud Storage (GCS).

Nome do campo

Tipo

Descrição

destination

STRING

Destino do arquivo. Exemplo: gs://...

Informações do InitScript

Caminho para um init script.

Nome do campo

Tipo

Descrição

workspace OU dbfs (obsoleto)

OU gcs

WorkspaceStorageInfo

DbfsStorageInfo (obsoleto)

Informações de armazenamento do GCSS

localização da workspace do init script. O destino deve ser fornecido. Por exemplo, { "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }

(Descontinuado) Localização DBFS do init script. O destino deve ser fornecido. Por exemplo, { "dbfs" : { "destination" : "dbfs:/home/init_script" } }

Localização do init script do Google Cloud Storage (GCS). O destino deve ser fornecido. Por exemplo, { "gs": { "destination" : "gs://..." } }

Valor chave

Um valor- keypar que especifica os parâmetros de configuração.

Nome do campo

Tipo

Descrição

key

STRING

O nome da propriedade de configuração.

value

STRING

O valor da propriedade de configuração.

Biblioteca de notebooks

Uma especificação para um Notebook contendo código de pipeline.

Nome do campo

Tipo

Descrição

path

STRING

O caminho absoluto para o Notebook.

Este campo é obrigatório.

PipelinesAutoScale

Atributos que definem clusters autoscale.

Nome do campo

Tipo

Descrição

min_workers

INT32

O número mínimo de worker para os quais os clusters podem ser reduzidos quando subutilizados. É também o número inicial de worker que os clusters terão após a criação.

max_workers

INT32

O número máximo de worker para os quais os clusters podem ser dimensionados quando sobrecarregados. max_workers deve ser estritamente maior que min_workers.

mode

STRING

O modo autoscale para os clusters:

Biblioteca Pipeline

Uma especificação para dependências de pipeline.

Nome do campo

Tipo

Descrição

notebook

NotebookBiblioteca

O caminho para um dataset Delta Live Tables que define o Notebook. O caminho deve estar no workspace Databricks, por exemplo: { "notebook" : { "path" : "/my-pipeline-notebook-path" } }.

PipelinesNovoCluster

Uma especificação clusters de pipeline.

O sistema Delta Live Tables define os seguintes atributos. Esses atributos não podem ser configurados pelos usuários:

  • spark_version

Nome do campo

Tipo

Descrição

label

STRING

Um rótulo para a especificação clusters , seja default para configurar os clusters default ou maintenance para configurar os clusters de manutenção.

Este campo é opcional. O valor default é default.

spark_conf

Valor chave

Um objeto que contém um conjunto de valor- keypar de configuração opcional do Spark especificado pelo usuário. Você também pode passar strings de opções JVM extras para o driver e os executores por meio de spark.driver.extraJavaOptions e spark.executor.extraJavaOptions, respectivamente.

Exemplo de confs do Spark: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} ou {"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}

gcp_attributes

Atributos clouds do Google

Atributos relacionados a clusters em execução nas clouds do Google. Se não for especificado na criação clusters , um conjunto de valores default será usado.

node_type_id

STRING

Este campo codifica, através de um único valor, o recurso disponível para cada um dos nós Spark neste clusters. Por exemplo, os nós Spark podem ser provisionados e otimizados para cargas de trabalho com uso intensivo de memória ou compute . Uma lista de tipos de nós disponíveis pode ser recuperada usando a chamada de API Clusters .

driver_node_type_id

STRING

O tipo de nó do driver Spark. Este campo é opcional; se não for definido, o tipo de nó do driver será definido com o mesmo valor de node_type_id definido acima.

ssh_public_keys

Uma matriz de STRING

Conteúdo key pública SSH que será adicionado a cada nó do Spark nesses clusters. A key privada correspondente pode ser usada para efetuar login com o nome de usuário ubuntu na porta 2200. Até 10 key podem ser especificadas.

custom_tags

Valor chave

Um objeto contendo um conjunto de tags para recursos clusters . Databricks marca todos os recursos clusters com essas marcas, além de default_tags.

Nota:

  • tags não são suportadas em tipos de nós legados, como otimizados para computee otimizados para memória

  • Databricks permite no máximo 45 tags personalizadas.

cluster_log_conf

ClusterLogConf

A configuração para entregar logs do Spark para um destino de armazenamento de longo prazo. Apenas um destino pode ser especificado para um clusters. Se esta configuração for fornecida, os logs serão entregues ao destino a cada 5 mins. O destino dos logs do driver é <destination>/<cluster-ID>/driver, enquanto o destino dos logs do executor é <destination>/<cluster-ID>/executor.

spark_env_vars

Valor chave

Um objeto que contém um conjunto opcional de variável de ambiente por key-valor especificado pelo usuário. o valor-chave par do formulário (X,Y) é exportado como está (ou seja, export X='Y') ao iniciar o driver e worker.

Para especificar um conjunto adicional de SPARK_DAEMON_JAVA_OPTS, Databricks recomenda anexá-los a $SPARK_DAEMON_JAVA_OPTS conforme mostrado no exemplo a seguir. Isso garante que todas as variáveis ambientais gerenciadas default do Databricks também sejam incluídas.

Exemplo Spark variável de ambiente: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} ou {"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}

init_scripts

Uma matriz de InitScriptInfo

A configuração para armazenar init script. Qualquer número de destinos pode ser especificado. Os scripts são executados sequencialmente na ordem fornecida. Se cluster_log_conf for especificado, os logs init script serão enviados para <destination>/<cluster-ID>/init_scripts.

instance_pool_id

STRING

O ID opcional do pool de instâncias ao qual os clusters pertencem. Consulte pool referência de configuração.

driver_instance_pool_id

STRING

O ID opcional do pool de instâncias a ser usado para o nó do driver. Você também deve especificar instance_pool_id. Consulte API pool de instâncias.

policy_id

STRING

Um ID de política de cluster .

num_workers OR autoscale

INT32 OU InitScriptInfo

Se num_workers, número de nós do trabalhador que esses clusters devem ter. Um clusters tem um driver Spark e executores num_workers para um total de num_workers + 1 nós Spark.

Ao ler as propriedades de um clusters, esse campo reflete o número desejado de worker em vez do número real de worker. Por exemplo, se um clusters for redimensionado de 5 para 10 worker, este campo é atualizado para refletir o tamanho alvo de 10 worker, enquanto o worker listado nos executores aumenta gradativamente de 5 para 10 conforme os novos nós são provisionados.

Se autoescala, os parâmetros necessários para escalar automaticamente os clusters para cima e para baixo com base na carga.

Este campo é opcional.

apply_policy_default_values

BOOLEAN

Se devem ser usados default valores de política para clusters atributos ausentes.

Configurações de pipeline

As configurações para uma implantação de pipeline.

Nome do campo

Tipo

Descrição

id

STRING

O identificador exclusivo para este pipeline.

O identificador é criado pelo sistema Delta Live Tables e não deve ser fornecido ao criar um pipeline.

name

STRING

Um nome amigável para este pipeline.

Este campo é opcional.

Por default, o nome do pipeline deve ser exclusivo. Para usar um nome duplicado, defina allow_duplicate_names como true na configuração do pipeline.

storage

STRING

Um caminho para um diretório DBFS para armazenar pontos de verificação e tabelas criadas pelo pipeline.

Este campo é opcional.

O sistema usa um local default se este campo estiver vazio.

configuration

um mapa de STRING:STRING

Uma lista de valor- keypar para adicionar à configuração do Spark dos clusters que executarão o pipeline.

Este campo é opcional.

Os elementos devem ser formatados como valor- keypar.

clusters

Uma matriz de PipelinesNewCluster

Uma matriz de especificações para os clusters para execução do pipeline.

Este campo é opcional.

Se isso não for especificado, o sistema selecionará uma configuração clusters default para o pipeline.

libraries

Uma matriz de PipelineLibrary

O Notebook contendo o código do pipeline e quaisquer dependências necessárias para a execução do pipeline.

target

STRING

Um nome de banco de dados para dados de saída de pipeline persistentes.

Consulte Publicar dados de pipelines Delta Live Tables no Hive metastore para obter mais informações.

continuous

BOOLEAN

Se este é um pipeline contínuo.

Este campo é opcional.

O valor default é false.

development

BOOLEAN

Se deve executar o pipeline no modo de desenvolvimento.

Este campo é opcional.

O valor default é false.

photon

BOOLEAN

Se a aceleração Photon está habilitada para este pipeline.

Este campo é opcional.

O valor default é false.

channel

STRING

O canal de lançamento Delta Live Tables especificando a versão Runtime a ser usada para este pipeline. Os valores suportados são:

  • preview para testar o pipeline com as próximas alterações no Delta Live Tables Runtime.

  • current para usar a versão atual do Delta Live Tables Runtime .

Este campo é opcional.

O valor default é current.

edition

STRING

A edição do produto Delta Live Tables para executar o pipeline:

  • CORE suporta cargas de trabalho de ingestão de transmissão.

  • PRO também suporta cargas de trabalho de ingestão de transmissão e adiciona suporte para processamento de captura de dados de alterações (CDC) (CDC).

  • ADVANCED oferece suporte a todos os recursos da edição PRO e adiciona suporte para cargas de trabalho que exigem expectativas de Delta Live Tables para impor restrições de qualidade de dados.

Este campo é opcional.

O valor default é advanced.

PipelineStateInfo

O estado de um pipeline, o status das atualizações mais recentes e informações sobre os recursos associados.

Nome do campo

Tipo

Descrição

state

STRING

O estado do pipeline. Um de IDLE ou RUNNING.

pipeline_id

STRING

O identificador exclusivo do pipeline.

cluster_id

STRING

O identificador exclusivo dos clusters que executam o pipeline.

name

STRING

O nome amigável do pipeline.

latest_updates

Uma matriz de UpdateStateInfo

Status das atualizações mais recentes para o pipeline, ordenadas com a atualização mais recente primeiro.

creator_user_name

STRING

O nome de usuário do criador do pipeline.

run_as_user_name

STRING

O nome de usuário com o qual o pipeline é executado. Este é um valor somente leitura derivado do proprietário do pipeline.

AtualizarStateInfo

O estado atual de uma atualização de pipeline.

Nome do campo

Tipo

Descrição

update_id

STRING

O identificador exclusivo para esta atualização.

state

STRING

O estado da atualização. Um de QUEUED, CREATED, WAITING_FOR_RESOURCES, INITIALIZING, RESETTING, SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED, FAILED ou CANCELED.

creation_time

STRING

Carimbo de data/hora quando esta atualização foi criada.

Informações de armazenamento do espaço de trabalho

informações de armazenamento workspace .

Nome do campo

Tipo

Descrição

destination

STRING

Destino do arquivo. Exemplo: /Users/someone@domain.com/init_script.sh