Guia da API Delta Live Tables
Importante
O conteúdo deste artigo foi retirado e pode não ser atualizado. Consulte Delta Live Tables na Referência da API REST do Databricks.
A API Delta Live Tables permite que você crie, edite, exclua, comece e view detalhes sobre pipelines.
Importante
Para acessar APIs REST do Databricks, você deve autenticar o.
Criar um pipeline
endpoint |
Método HTTP |
---|---|
|
|
Cria um novo pipeline Delta Live Tables.
Exemplo
Este exemplo cria um novo pipeline acionado.
Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json
pipeline-settings.json
:
{
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false
}
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
Estrutura do pedido
Consulte Configurações de pipeline.
Editar um pipeline
endpoint |
Método HTTP |
---|---|
|
|
Atualiza as configurações de um pipeline existente.
Exemplo
Este exemplo adiciona um parâmetro target
ao pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json
pipeline-settings.json
{
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
}
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
Estrutura do pedido
Consulte Configurações de pipeline.
Excluir um pipeline
endpoint |
Método HTTP |
---|---|
|
|
Exclui um pipeline do sistema Delta Live Tables.
Exemplo
Este exemplo exclui o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
começar uma atualização de pipeline
endpoint |
Método HTTP |
---|---|
|
|
começar uma atualização para um pipeline. Você pode começar uma atualização para todo o grafo do pipeline, ou uma atualização seletiva de tabelas específicas.
Exemplos
começar uma atualização completa
Este exemplo começa uma atualização com refresh completa para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
começar uma atualização das mesas selecionadas
Este exemplo começa uma atualização que refresh as tabelas sales_orders_cleaned
e sales_order_in_chicago
no pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
começar uma atualização completa das mesas selecionadas
Este exemplo começa uma atualização das tabelas sales_orders_cleaned
e sales_order_in_chicago
e uma atualização com refresh completa das tabelas customers
e sales_orders_raw
no pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
Estrutura do pedido
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Se todos os dados devem ser reprocessados. Se Este campo é opcional. O valor default é Um erro será retornado se |
|
Uma matriz de |
Uma lista de tabelas a serem atualizadas. Use Este campo é opcional. Se Um erro é retornado se:
|
|
Uma matriz de |
Uma lista de tabelas a serem atualizadas com refresh completa. Use Este campo é opcional. Se Um erro é retornado se:
|
Obtenha o status de uma solicitação de atualização de pipeline
endpoint |
Método HTTP |
---|---|
|
|
Obtém o status e as informações para a atualização do pipeline associada a request_id
, em que request_id
é um identificador exclusivo para a solicitação que inicia a atualização do pipeline. Se a atualização for repetida ou reiniciada, a nova atualização herdará o request_id.
Exemplo
Para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
, este exemplo retorna status e informações para a atualização associada ao ID de solicitação a83d9f7c-d798-4fd5-aa39-301b6e6f4429
:
Solicitar
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
Resposta
{
"status": "TERMINATED",
"latest_update":{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
"config":{
"id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
"name": "Retail sales (SQL)",
"storage": "/Users/username/data",
"configuration":{
"pipelines.numStreamRetryAttempts": "5"
},
"clusters":[
{
"label": "default",
"autoscale":{
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries":[
{
"notebook":{
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false,
"development": true,
"photon": true,
"edition": "advanced",
"channel": "CURRENT"
},
"cause": "API_CALL",
"state": "COMPLETED",
"cluster_id": "1234-567891-abcde123",
"creation_time": 1664304117145,
"full_refresh": false,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Estrutura de resposta
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O status da solicitação de atualização do pipeline. Um de
|
|
|
O identificador exclusivo do pipeline. |
|
|
O identificador exclusivo da atualização. |
|
As configurações do pipeline. |
|
|
|
O gatilho para a atualização. Um de |
|
|
O estado da atualização. Um de |
|
|
O identificador dos clusters que executam a atualização. |
|
|
O timestamp quando a atualização foi criada. |
|
|
Se esta atualização Reset todas as tabelas antes de executar |
|
Uma matriz de |
Uma lista de tabelas a serem atualizadas sem refresh completa. |
|
Uma matriz de |
Uma lista de tabelas a serem atualizadas com refresh completa. |
|
|
O identificador único da solicitação que inicia a atualização. Este é o valor retornado pela solicitação de atualização . Se a atualização for repetida ou reiniciada, a nova atualização herdará o request_id. No entanto, o |
Interrompa qualquer atualização de pipeline ativa
endpoint |
Método HTTP |
---|---|
|
|
Interrompe qualquer atualização de pipeline ativa. Se nenhuma atualização estiver em execução, essa solicitação será no-op.
Para um pipeline contínuo, a execução do pipeline é pausada. As tabelas atualmente em processamento concluem a atualização, mas as tabelas downstream não são atualizadas. Na próxima atualização do pipeline, o Delta Live Tables executa uma refresh selecionada das tabelas que não concluíram o processamento e retoma o processamento do DAG do pipeline restante.
Para um pipeline acionado, a execução do pipeline é interrompida. As tabelas atualmente em processamento concluem a atualização, mas as tabelas downstream não são atualizadas. Na próxima atualização do pipeline, Delta Live Tables refresh todas as tabelas.
Exemplo
Este exemplo interrompe uma atualização para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
Listar eventos de pipeline
endpoint |
Método HTTP |
---|---|
|
|
Recupera eventos para um pipeline.
Exemplo
Este exemplo recupera no máximo 5 eventos para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Solicitar
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
Estrutura do pedido
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
tokens de página retornados pela chamada anterior. Este campo é mutuamente exclusivo com todos os campos desta solicitação, exceto max_results. Um erro será retornado se quaisquer campos diferentes de max_results forem configurados quando este campo for configurado. Este campo é opcional. |
|
|
O número máximo de entradas a serem retornadas em uma única página. O sistema pode retornar menos de Este campo é opcional. O valor default é 25. O valor máximo é 100. Um erro será retornado se o valor de |
|
|
Uma strings indicando uma ordem de classificação por carimbo de data/hora para os resultados, por exemplo, A ordem de classificação pode ser crescente ou decrescente. Por default, os eventos são retornados em ordem decrescente por timestamp. Este campo é opcional. |
|
|
Critérios para selecionar um subconjunto de resultados, expressos usando uma sintaxe semelhante a SQL. Os filtros suportados são:
Expressões compostas são suportadas, por exemplo:
Este campo é opcional. |
Estrutura de resposta
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
Uma matriz de eventos de pipeline. |
A lista de eventos que correspondem aos critérios de solicitação. |
|
|
Se presente, um tokens para buscar a próxima página de eventos. |
|
|
Se presente, um tokens para buscar a página anterior de eventos. |
Obter detalhes do pipeline
endpoint |
Método HTTP |
---|---|
|
|
Obtém detalhes sobre um pipeline, incluindo as configurações do pipeline e atualizações recentes.
Exemplo
Este exemplo obtém detalhes do pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
Resposta
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"spec": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
},
"state": "IDLE",
"cluster_id": "1234-567891-abcde123",
"name": "Wikipedia pipeline (SQL)",
"creator_user_name": "username",
"latest_updates": [
{
"update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:37:30.279Z"
},
{
"update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
"state": "CANCELED",
"creation_time": "2021-08-13T00:35:51.902Z"
},
{
"update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
"state": "FAILED",
"creation_time": "2021-08-13T00:33:38.565Z"
}
],
"run_as_user_name": "username"
}
Estrutura de resposta
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O identificador exclusivo do pipeline. |
|
As configurações do pipeline. |
|
|
|
O estado do pipeline. Um de Se estado = |
|
|
O identificador dos clusters que executam o pipeline. |
|
|
O nome amigável para este pipeline. |
|
|
O nome de usuário do criador do pipeline. |
|
Uma matriz de UpdateStateInfo |
Status das atualizações mais recentes para o pipeline, ordenadas com a atualização mais recente primeiro. |
|
|
O nome de usuário que o pipeline executa. |
Obter detalhes da atualização
endpoint |
Método HTTP |
---|---|
|
|
Obtém detalhes para uma atualização de pipeline.
Exemplo
Este exemplo obtém detalhes para atualizar 9a84f906-fc51-11eb-9a03-0242ac130003
para o pipeline com ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Solicitar
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
Resposta
{
"update": {
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
"config": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"configuration": {
"pipelines.numStreamRetryAttempts": "5"
},
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false,
"development": false
},
"cause": "API_CALL",
"state": "COMPLETED",
"creation_time": 1628815050279,
"full_refresh": true,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Estrutura de resposta
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O identificador exclusivo do pipeline. |
|
|
O identificador exclusivo desta atualização. |
|
As configurações do pipeline. |
|
|
|
O gatilho para a atualização. Um de |
|
|
O estado da atualização. Um de |
|
|
O identificador dos clusters que executam o pipeline. |
|
|
O timestamp quando a atualização foi criada. |
|
|
Se esta foi uma refresh completa. Se verdadeiro, todas as tabelas de pipeline foram Reset antes de executar a atualização. |
Listar pipelines
endpoint |
Método HTTP |
---|---|
|
|
Lista os pipelines definidos no sistema Delta Live Tables.
Exemplo
Este exemplo recupera detalhes de pipelines em que o nome contém quickstart
:
Solicitar
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27
Substituir:
<databricks-instance>
com o nome da instância do espaço de trabalho do Databricks, por exemplo1234567890123456.7.gcp.databricks.com
.
Este exemplo usa um .netrc arquivo.
Resposta
{
"statuses": [
{
"pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "DLT quickstart (Python)",
"latest_updates": [
{
"update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:34:21.871Z"
}
],
"creator_user_name": "username"
},
{
"pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "My DLT quickstart example",
"creator_user_name": "username"
}
],
"next_page_token": "eyJ...==",
"prev_page_token": "eyJ..x9"
}
Estrutura do pedido
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
tokens de página retornados pela chamada anterior. Este campo é opcional. |
|
|
O número máximo de entradas a serem retornadas em uma única página. O sistema pode retornar menos de Este campo é opcional. O valor default é 25. O valor máximo é 100. Um erro será retornado se o valor de |
|
Uma matriz de |
Uma lista de strings especificando a ordem dos resultados, por exemplo, Este campo é opcional. |
|
|
Selecione um subconjunto de resultados com base nos critérios especificados. Os filtros suportados são:
Filtros compostos não são suportados. Este campo é opcional. |
Estrutura de resposta
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
Uma matriz de PipelineStateInfo |
A lista de eventos que correspondem aos critérios de solicitação. |
|
|
Se presente, um tokens para buscar a próxima página de eventos. |
|
|
Se presente, um tokens para buscar a página anterior de eventos. |
Estruturas de dados
Nesta secção:
ClusterLogConf
Caminho para logs clusters.
Nome do campo |
Tipo |
Descrição |
---|---|---|
Localização DBFS de logs clusters. O destino deve ser fornecido. Por exemplo,
|
DbfsStorageInfo
Informações de armazenamento DBFS.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Destino DBFS. Exemplo: |
Atributos clouds do Google
Atributos definidos durante a criação clusters relacionados às clouds do Google.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Use executor preemptivo. |
|
|
Endereço de serviço do Google account email que os clusters usam para autenticação com o Google Identity. Este campo é usado para autenticação com a fonte de dados do GCS e do BigQuery . |
|
|
Tamanho, em GB, do disco alocado para cada instância. Este valor deve estar entre 100 e 4096. |
Informações de armazenamento do GCSS
Informações de armazenamento do Google Cloud Storage (GCS).
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Destino do arquivo. Exemplo: |
Informações do InitScript
Caminho para um init script.
Nome do campo |
Tipo |
Descrição |
---|---|---|
OU
|
DbfsStorageInfo (obsoleto) |
localização da workspace do init script. O destino deve ser fornecido. Por exemplo,
(Descontinuado) Localização DBFS do init script. O destino deve ser fornecido. Por exemplo,
Localização do init script do Google Cloud Storage (GCS). O destino deve ser fornecido. Por exemplo, |
Valor chave
Um valor- keypar que especifica os parâmetros de configuração.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O nome da propriedade de configuração. |
|
|
O valor da propriedade de configuração. |
Biblioteca de notebooks
Uma especificação para um Notebook contendo código de pipeline.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O caminho absoluto para o Notebook. Este campo é obrigatório. |
PipelinesAutoScale
Atributos que definem clusters autoscale.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O número mínimo de worker para os quais os clusters podem ser reduzidos quando subutilizados. É também o número inicial de worker que os clusters terão após a criação. |
|
|
O número máximo de worker para os quais os clusters podem ser dimensionados quando sobrecarregados. max_workers deve ser estritamente maior que min_workers. |
|
|
O modo autoscale para os clusters:
|
Biblioteca Pipeline
Uma especificação para dependências de pipeline.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
O caminho para um dataset Delta Live Tables que define o Notebook. O caminho deve estar no workspace Databricks, por exemplo: |
PipelinesNovoCluster
Uma especificação clusters de pipeline.
O sistema Delta Live Tables define os seguintes atributos. Esses atributos não podem ser configurados pelos usuários:
spark_version
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Um rótulo para a especificação clusters , seja Este campo é opcional. O valor default é |
|
Um objeto que contém um conjunto de valor- keypar de configuração opcional do Spark especificado pelo usuário. Você também pode passar strings de opções JVM extras para o driver e os executores por meio de Exemplo de confs do Spark: |
|
|
Atributos relacionados a clusters em execução nas clouds do Google. Se não for especificado na criação clusters , um conjunto de valores default será usado. |
|
|
|
Este campo codifica, através de um único valor, o recurso disponível para cada um dos nós Spark neste clusters. Por exemplo, os nós Spark podem ser provisionados e otimizados para cargas de trabalho com uso intensivo de memória ou compute . Uma lista de tipos de nós disponíveis pode ser recuperada usando a chamada de API Clusters . |
|
|
O tipo de nó do driver Spark. Este campo é opcional; se não for definido, o tipo de nó do driver será definido com o mesmo valor de |
|
Uma matriz de |
Conteúdo key pública SSH que será adicionado a cada nó do Spark nesses clusters. A key privada correspondente pode ser usada para efetuar login com o nome de usuário |
|
Um objeto contendo um conjunto de tags para recursos clusters . Databricks marca todos os recursos clusters com essas marcas, além de default_tags. Nota:
|
|
|
A configuração para entregar logs do Spark para um destino de armazenamento de longo prazo. Apenas um destino pode ser especificado para um clusters. Se esta configuração for fornecida, os logs serão entregues ao destino a cada |
|
|
Um objeto que contém um conjunto opcional de variável de ambiente por key-valor especificado pelo usuário. o valor-chave par do formulário (X,Y) é exportado como está (ou seja, Para especificar um conjunto adicional de Exemplo Spark variável de ambiente: |
|
|
Uma matriz de InitScriptInfo |
A configuração para armazenar init script. Qualquer número de destinos pode ser especificado. Os scripts são executados sequencialmente na ordem fornecida. Se |
|
|
O ID opcional do pool de instâncias ao qual os clusters pertencem. Consulte pool referência de configuração. |
|
|
O ID opcional do pool de instâncias a ser usado para o nó do driver. Você também deve especificar |
|
|
Um ID de política de cluster . |
|
|
Se num_workers, número de nós do trabalhador que esses clusters devem ter. Um clusters tem um driver Spark e executores num_workers para um total de num_workers + 1 nós Spark. Ao ler as propriedades de um clusters, esse campo reflete o número desejado de worker em vez do número real de worker. Por exemplo, se um clusters for redimensionado de 5 para 10 worker, este campo é atualizado para refletir o tamanho alvo de 10 worker, enquanto o worker listado nos executores aumenta gradativamente de 5 para 10 conforme os novos nós são provisionados. Se autoescala, os parâmetros necessários para escalar automaticamente os clusters para cima e para baixo com base na carga. Este campo é opcional. |
|
|
Se devem ser usados default valores de política para clusters atributos ausentes. |
Configurações de pipeline
As configurações para uma implantação de pipeline.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O identificador exclusivo para este pipeline. O identificador é criado pelo sistema Delta Live Tables e não deve ser fornecido ao criar um pipeline. |
|
|
Um nome amigável para este pipeline. Este campo é opcional. Por default, o nome do pipeline deve ser exclusivo. Para usar um nome duplicado, defina |
|
|
Um caminho para um diretório DBFS para armazenar pontos de verificação e tabelas criadas pelo pipeline. Este campo é opcional. O sistema usa um local default se este campo estiver vazio. |
|
um mapa de |
Uma lista de valor- keypar para adicionar à configuração do Spark dos clusters que executarão o pipeline. Este campo é opcional. Os elementos devem ser formatados como valor- keypar. |
|
Uma matriz de PipelinesNewCluster |
Uma matriz de especificações para os clusters para execução do pipeline. Este campo é opcional. Se isso não for especificado, o sistema selecionará uma configuração clusters default para o pipeline. |
|
Uma matriz de PipelineLibrary |
O Notebook contendo o código do pipeline e quaisquer dependências necessárias para a execução do pipeline. |
|
|
Um nome de banco de dados para dados de saída de pipeline persistentes. Para obter mais informações, consulte Publicar dados de Delta Live Tables para Hive metastore. |
|
|
Se este é um pipeline contínuo. Este campo é opcional. O valor default é |
|
|
Se deve executar o pipeline no modo de desenvolvimento. Este campo é opcional. O valor default é |
|
|
Se a aceleração Photon está habilitada para este pipeline. Este campo é opcional. O valor default é |
|
|
O canal de lançamento Delta Live Tables especificando a versão Runtime a ser usada para este pipeline. Os valores suportados são:
Este campo é opcional. O valor default é |
|
|
A edição do produto Delta Live Tables para executar o pipeline:
Este campo é opcional. O valor default é |
PipelineStateInfo
O estado de um pipeline, o status das atualizações mais recentes e informações sobre os recursos associados.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O estado do pipeline. Um de |
|
|
O identificador exclusivo do pipeline. |
|
|
O identificador exclusivo dos clusters que executam o pipeline. |
|
|
O nome amigável do pipeline. |
|
Uma matriz de UpdateStateInfo |
Status das atualizações mais recentes para o pipeline, ordenadas com a atualização mais recente primeiro. |
|
|
O nome de usuário do criador do pipeline. |
|
|
O nome de usuário com o qual o pipeline é executado. Este é um valor somente leitura derivado do proprietário do pipeline. |
AtualizarStateInfo
O estado atual de uma atualização de pipeline.
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
O identificador exclusivo para esta atualização. |
|
|
O estado da atualização. Um de |
|
|
Carimbo de data/hora quando esta atualização foi criada. |
Informações de armazenamento do espaço de trabalho
informações de armazenamento workspace .
Nome do campo |
Tipo |
Descrição |
---|---|---|
|
|
Destino do arquivo. Exemplo: |