Desenvolva o pipeline Delta Live Tables com Databricks ativo Bundles

Databricks ativo Bundles, também conhecidos simplesmente como bundles, permitem validar, implantar e executar programaticamente recursos de Databricks como pipeline Delta Live Tables . Você também pode usar pacotes para gerenciar programaticamente Job do Databricks e trabalhar com pilhas MLOps. Consulte O que são pacotes Databricks ativos?.

Este artigo descreve um conjunto de passos que você pode concluir em sua máquina de desenvolvimento local para usar um pacote que gerencia programaticamente um pipeline Delta Live Tables.

Requisitos

(Opcional) Instale um módulo Python para oferecer suporte ao desenvolvimento de pipeline local

Databricks fornece um módulo Python para auxiliar no desenvolvimento local do código de pipeline do Delta Live Tables, fornecendo verificação de sintaxe, preenchimento automático e verificação de tipo de dados à medida que você escreve código em seu IDE.

O módulo Python para desenvolvimento local está disponível no PyPi. Para instalar o módulo, consulte stub Python para Delta Live Tables.

Decisão: Criar o pacote usando um padrão ou manualmente

Decida se o senhor deseja criar o pacote usando um padrão ou manualmente:

Crie o pacote usando um padrão

Nestes passos, você cria o pacote usando o modelo de pacote default do Databricks para Python. Estes passos orientam você a criar um pacote que consiste em um Notebook que define um pipeline Delta Live Tables, que filtra dados do dataset original. Em seguida, você valida, implanta e executa o pipeline implantado em seu espaço de trabalho do Databricks.

o passo 1: Configurar autenticação

Nesta etapa, você configura a autenticação entre a CLI do Databricks em sua máquina de desenvolvimento e seu workspace do Databricks. Este artigo pressupõe que você deseja usar a autenticação usuário-máquina (U2M) OAuth e um perfil de configuração do Databricks correspondente chamado DEFAULT para autenticação.

Observação

A autenticação U2M é apropriada para testar esses passos em tempo real. Para um fluxo de trabalho totalmente automatizado, a Databricks recomenda que você use a autenticação OAuth máquina a máquina (M2M). Consulte as instruções de configuração da autenticação M2M em Autenticação.

  1. Use a CLI do Databricks para iniciar o gerenciamento tokens OAuth localmente executando o comando a seguir para cada workspace de destino.

    No comando a seguir, substitua <workspace-url> pela URL da instância do espaço de trabalho do Databricks, por exemplo https://1234567890123456.7.gcp.databricks.com.

    databricks auth login --host <workspace-url>
    
  2. A CLI do Databricks solicita que você salve as informações inseridas como um perfil de configuração do Databricks. Pressione Enter para aceitar o nome de perfil sugerido ou digite o nome de um perfil novo ou existente. Qualquer perfil existente com o mesmo nome será substituído pelas informações inseridas. Você pode usar perfis para alternar rapidamente seu contexto de autenticação em vários workspace.

    Para obter uma lista de quaisquer perfis existentes, em um terminal ou prompt de comando separado, use a CLI do Databricks para executar o comando databricks auth profiles. Para view as configurações existentes de um perfil específico, execute o comando databricks auth env --profile <profile-name>.

  3. No navegador da Web, siga as instruções na tela para log in no workspace do Databricks.

  4. Para view o valor atual tokens OAuth de um perfil e o carimbo de data/hora de expiração futura dos tokens , execute um dos seguintes comandos:

    • databricks auth token --host <workspace-url>

    • databricks auth token -p <profile-name>

    • databricks auth token --host <workspace-url> -p <profile-name>

    Se você tiver vários perfis com o mesmo valor --host, talvez seja necessário especificar as opções --host e -p juntas para ajudar a CLI do Databricks a encontrar as informações tokens OAuth correspondentes corretas.

o passo 2: Crie o pacote

Um bundle contém os artefatos que você deseja aprimorar e as configurações para o fluxo de trabalho que deseja executar.

  1. Use seu terminal ou prompt de comando para mudar para um diretório em sua máquina de desenvolvimento local que conterá o pacote gerado pelo padrão.

  2. Use a CLI do Dataricks para executar o comando bundle init :

    databricks bundle init
    
  3. Para Template to use, deixe o valor default de default-python pressionando Enter.

  4. Para Unique name for this project, deixe o valor default my_project ou digite um valor diferente e pressione Enter. Isso determina o nome do diretório raiz deste pacote configurável. Este diretório raiz é criado dentro do seu diretório de trabalho atual.

  5. Para Include a stub (sample) notebook, selecione no e pressione Enter. Isto instrui a CLI do Databricks a não adicionar um Notebook de amostra neste momento, pois o Notebook amostra associado a esta opção não contém nenhum código Delta Live Tables.

  6. Para Include a stub (sample) DLT pipeline, deixe o valor default de yes pressionando Enter. Isto instrui a CLI do Databricks a adicionar um Notebook de amostra que contém o código Delta Live Tables.

  7. Para Include a stub (sample) Python package, selecione no e pressione Enter. Isto instrui a CLI do Databricks a não adicionar arquivos de pacote Python wheel de amostra ou instruções de construção relacionadas ao seu pacote.

o passo 3: Explore o pacote

Para view os arquivos que o padrão gerou, mude para o diretório raiz do seu pacote recém-criado e abra este diretório com seu IDE preferido, por exemplo Visual Studio Code. Arquivos de interesse particular incluem o seguinte:

  • databricks.yml: este arquivo especifica o nome programático do pacote configurável, inclui uma referência à definição do pipeline e especifica configurações sobre o workspace de destino.

  • resources/<project-name>_job.yml e resources/<project-name>_pipeline.yml: este arquivo especifica as configurações do pipeline.

  • src/dlt_pipeline.ipynb: Este arquivo é um Notebook que, quando executado, executa o pipeline.

Para personalizar pipelines, os mapeamentos dentro de uma declaração de pipeline correspondem à carga útil da solicitação de criação de operações de pipeline, conforme definido em POST /api/2.0/pipelines na referência da API REST, expressa em formato YAML.

o passo 4: Valide o arquivo de configuração do pacote configurável do projeto

Neste passo, você verifica se a configuração do pacote é válida.

  1. No diretório raiz, use a CLI do Databricks para executar o comando bundle validate , da seguinte forma:

    databricks bundle validate
    
  2. Se um resumo da configuração do pacote for retornado, a validação foi bem-sucedida. Se algum erro for retornado, corrija os erros e repita este passo.

Se você fizer alguma alteração em seu pacote após este passo, você deve repetir este passo para verificar se a configuração do seu pacote ainda é válida.

o passo 5: implantei o projeto local no espaço de trabalho remoto

Nesta etapa, você implantou o Notebook local em seu workspace remoto do Databricks e criou o pipeline Delta Live Tables em seu workspace.

  1. Use a CLI do Databricks para executar o comando bundle validate da seguinte maneira:

    databricks bundle deploy -t dev
    
  2. Verifique se o Notebook local foi implantado: Na barra lateral do workspace do Databricks, clique em workspace.

  3. Clique na pasta Usuários > <your-username> > .bundle > <project-name> > dev > arquivos > src . O Notebook deve estar nesta pasta.

  4. Verifique se o pipeline foi criado: Na barra lateral do workspacedo Databricks, clique em Delta Live Tables.

  5. Na Delta Live Table tabs , clique e m [de <your-username>v <project-name>pipeline] .

Se você fizer alguma alteração em seu pacote após esta etapa, repita as etapas 4 a 5 para verificar se a configuração do pacote ainda é válida e, em seguida, reimplantar o projeto.

o passo 6: execução do projeto implantado

Nesta etapa, você executa o pipeline Delta Live Tables em seu espaço de trabalho.

  1. No diretório raiz, use a CLI do Databricks para executar o comando bundle run , da seguinte maneira, substituindo <project-name> pelo nome do seu projeto da etapa 2:

    databricks bundle run -t dev <project-name>_pipeline
    
  2. Copie o valor de Update URL que aparece em seu terminal e cole esse valor em seu navegador da Web para abrir seu workspace do Databricks.

  3. No seu workspace do Databricks, após a conclusão bem-sucedida do pipeline, clique na view taxi_raw e na view materializada filtered_taxis para ver os detalhes.

Se você fizer alguma alteração em seu pacote após esta etapa, repita as etapas 4 a 6 para verificar se a configuração do pacote ainda é válida, reimplantar o projeto e executar o projeto reimplantado.

o passo 7: Limpar

Nesta etapa, você exclui o Notebook implantado e o pipeline do seu workspace.

  1. No diretório raiz, use a CLI do Databricks para executar o comando bundle destroy , da seguinte forma:

    databricks bundle destroy -t dev
    
  2. Confirme a solicitação de exclusão do pipeline: quando solicitado a destruir recursos permanentemente, digite y e pressione Enter.

  3. Confirme a solicitação de exclusão Notebook : quando solicitado a destruir permanentemente a pasta anteriormente aprimorada e todos os seus arquivos, digite y e pressione Enter.

  4. Se você também deseja excluir o pacote configurável de sua máquina de desenvolvimento, agora você pode excluir o diretório local da etapa 2.

Você chegou ao final dos passos para criar um pacote usando um padrão.

Crie o pacote manualmente

Nesses passos, o senhor cria o pacote desde o início. Esses passos orientam o senhor a criar um pacote que consiste em um Notebook com diretivas Delta Live Tables incorporadas e a definição de um Delta Live Tables pipeline para executar esse Notebook. Em seguida, o senhor valida, implanta e executa o Notebook implantado a partir do pipeline em seu Databricks workspace.

o passo 1: Criar o pacote

Um bundle contém os artefatos que você deseja aprimorar e as configurações para o fluxo de trabalho que deseja executar.

  1. Crie ou identifique um diretório vazio em sua máquina de desenvolvimento.

  2. Mude para o diretório vazio em seu terminal ou abra o diretório vazio em seu IDE.

Dica

Seu diretório vazio pode estar associado a um repositório clonado gerenciado por um provedor Git. Isso permite que você gerencie seu bundle com controle de versão externo e colabore mais facilmente com outros desenvolvedores e profissionais IT em seu projeto. No entanto, para ajudar a simplificar esta demonstração, um repositório clonado não é usado aqui.

Se você optar por clonar um repositório para esta demonstração, o Databricks recomenda que o repositório esteja vazio ou tenha apenas arquivos básicos, como README e .gitignore. Caso contrário, quaisquer arquivos pré-existentes no repositório podem ser sincronizados desnecessariamente com seu workspace do Databricks.

passo 2: Adicionar um Notebook ao projeto

Nesta passo, você adiciona um Notebook ao seu projeto. Este Notebook faz o seguinte:

  • Lê dados brutos do fluxo de cliques JSON do conjunto de dadosDatabricks em uma tabela Delta bruta na pasta pipelines dentro da pasta Databricks workspace 's DBFS root.

  • Lê registros da tabela Delta bruta e usa uma query Delta Live Tables e expectativas para criar uma nova tabela Delta com dados limpos e preparados.

  • Executa uma análise dos dados preparados na nova tabela Delta com uma query Delta Live Tables.

  1. Na raiz do diretório, crie um arquivo com o nome dlt-wikipedia-python.py.

  2. Adicione o seguinte código ao arquivo dlt-wikipedia-python.py :

    # Databricks notebook source
    import dlt
    from pyspark.sql.functions import *
    
    # COMMAND ----------
    json_path = "/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/2015_2_clickstream.json"
    
    # COMMAND ----------
    @dlt.table(
      comment="The raw wikipedia clickstream dataset, ingested from /databricks-datasets."
    )
    def clickstream_raw():
      return (spark.read.format("json").load(json_path))
    
    # COMMAND ----------
    @dlt.table(
      comment="Wikipedia clickstream data cleaned and prepared for analysis."
    )
    @dlt.expect("valid_current_page_title", "current_page_title IS NOT NULL")
    @dlt.expect_or_fail("valid_count", "click_count > 0")
    def clickstream_prepared():
      return (
        dlt.read("clickstream_raw")
          .withColumn("click_count", expr("CAST(n AS INT)"))
          .withColumnRenamed("curr_title", "current_page_title")
          .withColumnRenamed("prev_title", "previous_page_title")
          .select("current_page_title", "click_count", "previous_page_title")
      )
    
    # COMMAND ----------
    @dlt.table(
      comment="A table containing the top pages linking to the Apache Spark page."
    )
    def top_spark_referrers():
      return (
        dlt.read("clickstream_prepared")
          .filter(expr("current_page_title == 'Apache_Spark'"))
          .withColumnRenamed("previous_page_title", "referrer")
          .sort(desc("click_count"))
          .select("referrer", "click_count")
          .limit(10)
      )
    

o passo 3: Adicione um arquivo de esquema de configuração de pacote ao projeto

Se você estiver usando um IDE como Visual Studio Code, PyCharm Professional ou IntelliJ IDEA Ultimate que fornece suporte para arquivos YAML e arquivos de esquema JSON, você pode usar seu IDE não apenas para criar o arquivo de esquema de configuração do pacote, mas também para verificar o pacote do seu projeto sintaxe e formatação do arquivo de configuração e fornecem dicas de conclusão de código, como segue. Observe que, embora o arquivo de configuração do pacote configurável que você criará posteriormente na etapa 5 seja baseado em YAML, o arquivo de esquema de configuração do pacote configurável nesta etapa é baseado em JSON.

  1. Adicione suporte ao servidor de linguagem YAML ao Visual Studio Code, por exemplo, instalando a extensão YAML do Visual Studio Code Marketplace.

  2. Gere o arquivo de esquema JSON de configuração do pacote ativo do Databricks usando a CLI do Databricks para executar o comando bundle schema e redirecione a saída para um arquivo JSON. Por exemplo, gere um arquivo chamado bundle_config_schema.json no diretório atual, como segue:

    databricks bundle schema > bundle_config_schema.json
    
  3. Observe que mais tarde na etapa 5, você adicionará o seguinte comentário ao início do arquivo de configuração do pacote configurável, que associa o arquivo de configuração do pacote configurável ao arquivo de esquema JSON especificado:

    # yaml-language-server: $schema=bundle_config_schema.json
    

    Observação

    No comentário anterior, se o arquivo de esquema JSON de configuração do pacote Databricks ativo estiver em um caminho diferente, substitua bundle_config_schema.json pelo caminho completo para seu arquivo de esquema.

  1. Gere o arquivo de esquema JSON de configuração do pacote ativo do Databricks usando a CLI do Databricks para executar o comando bundle schema e redirecione a saída para um arquivo JSON. Por exemplo, gere um arquivo chamado bundle_config_schema.json no diretório atual, como segue:

    databricks bundle schema > bundle_config_schema.json
    
  2. Configure o PyCharm para reconhecer o arquivo de esquema JSON de configuração do pacote configurável e, em seguida, conclua o mapeamento do esquema JSON seguindo as instruções em Configurar um esquema JSON personalizado.

  3. Observe que posteriormente na etapa 5, você usará o PyCharm para criar ou abrir um arquivo de configuração de pacote configurável. Por convenção, esse arquivo é denominado databricks.yml.

  1. Gere o arquivo de esquema JSON de configuração do pacote ativo do Databricks usando a CLI do Databricks para executar o comando bundle schema e redirecione a saída para um arquivo JSON. Por exemplo, gere um arquivo chamado bundle_config_schema.json no diretório atual, como segue:

    databricks bundle schema > bundle_config_schema.json
    
  2. Configure o IntelliJ IDEA para reconhecer o arquivo de esquema JSON de configuração do pacote configurável e, em seguida, conclua o mapeamento do esquema JSON seguindo as instruções em Configurar um esquema JSON personalizado.

  3. Observe que posteriormente na etapa 5, você usará o IntelliJ IDEA para criar ou abrir um arquivo de configuração de pacote configurável. Por convenção, esse arquivo é denominado databricks.yml.

passo 4: configurar a autenticação

Nesta etapa, você configura a autenticação entre a CLI do Databricks em sua máquina de desenvolvimento e seu workspace do Databricks. Este artigo pressupõe que você deseja usar a autenticação usuário-máquina (U2M) OAuth e um perfil de configuração do Databricks correspondente chamado DEFAULT para autenticação.

Observação

A autenticação U2M é apropriada para testar esses passos em tempo real. Para um fluxo de trabalho totalmente automatizado, a Databricks recomenda que você use a autenticação OAuth máquina a máquina (M2M). Consulte as instruções de configuração da autenticação M2M em Autenticação.

  1. Use a CLI do Databricks para iniciar o gerenciamento tokens OAuth localmente executando o comando a seguir para cada workspace de destino.

    No comando a seguir, substitua <workspace-url> pela URL da instância do espaço de trabalho do Databricks, por exemplo https://1234567890123456.7.gcp.databricks.com.

    databricks auth login --host <workspace-url>
    
  2. A CLI do Databricks solicita que você salve as informações inseridas como um perfil de configuração do Databricks. Pressione Enter para aceitar o nome de perfil sugerido ou digite o nome de um perfil novo ou existente. Qualquer perfil existente com o mesmo nome será substituído pelas informações inseridas. Você pode usar perfis para alternar rapidamente seu contexto de autenticação em vários workspace.

    Para obter uma lista de quaisquer perfis existentes, em um terminal ou prompt de comando separado, use a CLI do Databricks para executar o comando databricks auth profiles. Para view as configurações existentes de um perfil específico, execute o comando databricks auth env --profile <profile-name>.

  3. No navegador da Web, siga as instruções na tela para log in no workspace do Databricks.

  4. Para view o valor atual tokens OAuth de um perfil e o carimbo de data/hora de expiração futura dos tokens , execute um dos seguintes comandos:

    • databricks auth token --host <workspace-url>

    • databricks auth token -p <profile-name>

    • databricks auth token --host <workspace-url> -p <profile-name>

    Se você tiver vários perfis com o mesmo valor --host, talvez seja necessário especificar as opções --host e -p juntas para ajudar a CLI do Databricks a encontrar as informações tokens OAuth correspondentes corretas.

o passo 5: Adicione um arquivo de configuração de pacote ao projeto

Neste passo você define como deseja implantar e executar este Notebook. Para esta demonstração, você deseja usar um pipeline Delta Live Tables para executar o Notebook. Você modela esse objetivo em um arquivo de configuração de pacote configurável em seu projeto.

  1. Na raiz do diretório, use seu editor de texto favorito ou seu IDE para criar o arquivo de configuração do pacote. Por convenção, esse arquivo é denominado databricks.yml.

  2. Adicione o código a seguir ao arquivo databricks.yml , substituindo <workspace-url> pela URL do seu espaço de trabalho, por exemplo https://1234567890123456.7.gcp.databricks.com. Este URL deve corresponder ao do seu arquivo .databrickscfg :

Dica

A primeira linha, começando com # yaml-language-server, será obrigatória somente se o seu IDE for compatível. Consulte a etapa 3 anterior para obter detalhes.

# yaml-language-server: $schema=bundle_config_schema.json
bundle:
  name: dlt-wikipedia

resources:
  pipelines:
    dlt-wikipedia-pipeline:
      name: dlt-wikipedia-pipeline
      development: true
      continuous: false
      channel: "CURRENT"
      photon: false
      libraries:
        - notebook:
            path: ./dlt-wikipedia-python.py
      edition: "ADVANCED"
      clusters:
        - label: "default"
          num_workers: 1

targets:
  development:
    workspace:
      host: <workspace-url>

Para personalizar pipelines, os mapeamentos dentro de uma declaração de pipeline correspondem à carga útil da solicitação de criação de operações de pipeline, conforme definido em POST /api/2.0/pipelines na referência da API REST, expressa em formato YAML.

o passo 6: Valide o arquivo de configuração do pacote configurável do projeto

Neste passo, você verifica se a configuração do pacote é válida.

  1. Use a CLI do Databricks para executar o comando bundle validate da seguinte maneira:

    databricks bundle validate
    
  2. Se um resumo da configuração do pacote for retornado, a validação foi bem-sucedida. Se algum erro for retornado, corrija os erros e repita este passo.

Se você fizer alguma alteração em seu pacote após este passo, você deve repetir este passo para verificar se a configuração do seu pacote ainda é válida.

passo 7: aprimorar o projeto local para o espaço de trabalho remoto

Nesta passo, você aprimora o Notebook local para seu workspace Databricks remoto e cria o pipeline Delta Live Tables em seu workspace.

  1. Use a CLI do Databricks para executar o comando bundle validate da seguinte maneira:

    databricks bundle deploy -t development
    
  2. Verifique se o Notebook local foi implantado: Na barra lateral do workspace do Databricks, clique em workspace.

  3. Clique na pasta Usuários > <your-username> > .bundle > dlt-wikipedia > desenvolvimento > arquivos . O Notebook deve estar nesta pasta.

  4. Verifique se o pipeline Delta Live Tables foi criado: Na barra lateral do seu workspaceDatabricks, clique em fluxo de trabalho.

  5. Na tab Delta Live Tables , clique em dlt-wikipedia-pipeline.

Se você fizer alguma alteração em seu pacote após esta etapa, repita as etapas 6 a 7 para verificar se a configuração do pacote ainda é válida e, em seguida, reimplantar o projeto.

passo 8: execução do projeto implantado

Nesta passo, você executa o Job do Databricks em seu workspace.

  1. Use a CLI do Databricks para executar o comando bundle run da seguinte maneira:

    databricks bundle run -t development dlt-wikipedia-pipeline
    
  2. Copie o valor de Update URL que aparece em seu terminal e cole esse valor em seu navegador da Web para abrir seu workspace do Databricks.

  3. Em seu workspace Databricks, depois que o pipeline Delta Live Tables for concluído com êxito e mostrar barras de título verdes nas várias view materializadas, clique na view materializada clickstream_raw, clickstream_prepared ou top_spark_referrers para ver mais detalhes.

  4. Antes de iniciar a próxima passo de limpeza, observe a localização das tabelas Delta criadas no DBFS da seguinte maneira. Você precisará desta informação se quiser limpar manualmente essas tabelas Delta posteriormente:

    1. Com o pipeline Delta Live Tables ainda aberto, clique no botão Settings (ao lado dos botões Permissions and programar ).

    2. Na área Destino , observe o valor do campo Local de armazenamento . É aqui que as tabelas Delta foram criadas no DBFS.

Se você fizer alguma alteração em seu pacote após esta etapa, repita as etapas 6 a 8 para verificar se a configuração do pacote ainda é válida, reimplantar o projeto e executar o projeto reimplantado.

passo 9: Limpar

Nesta passo, você exclui o Notebook implantado e o pipeline Delta Live Tables de seu workspace.

  1. Use a CLI do Databricks para executar o comando bundle destroy da seguinte maneira:

    databricks bundle destroy
    
  2. Confirme a solicitação de exclusão do pipeline Delta Live Tables: quando solicitado a destruir recursos permanentemente, digite y e pressione Enter.

  3. Confirme a solicitação de exclusão Notebook : quando solicitado a destruir permanentemente a pasta anteriormente aprimorada e todos os seus arquivos, digite y e pressione Enter.

A execução do comando bundle destroy exclui apenas o pipeline Delta Live Tables implantado e a pasta que contém o Notebook implantado. Este comando não exclui nenhum efeito colateral, como as tabelas Delta que o Notebook criou no DBFS. Se você precisar excluir essas tabelas Delta, deverá fazê-lo manualmente.

Adicionar uma definição de pipeline existente a um pacote

Você pode usar uma definição de pipeline Delta Live Tables existente como base para definir um novo pipeline em um arquivo de configuração de pacote configurável. Para fazer isso, siga os seguintes passos.

Observação

Os passos a seguir criam um novo pipeline que possui as mesmas configurações do pipeline existente. No entanto, o novo pipeline tem um ID de pipeline diferente do pipeline existente. Não é possível importar automaticamente um ID de pipeline existente para um pacote.

o passo 1: Obtenha a definição de pipeline existente no formato JSON

Neste passo, você usa a interface do usuário workspace do Databricks para obter a representação JSON da definição de pipeline existente.

  1. Na barra lateral do seu workspacedo Databricks, clique em fluxo de trabalho.

  2. Na Delta Live Table tabs , clique no lin k Nom e do pipeline.

  3. Entre os botões Permissões e Programar , clique no botão Configurações .

  4. Clique no botão JSON .

  5. Copie o JSON da definição do pipeline.

o passo 2: Converter a definição do pipeline do formato JSON para YAML

A definição de pipeline que você copiou do passo anterior está no formato JSON. As configurações do pacote estão no formato YAML. Você deve converter a definição de pipeline do formato JSON para YAML. Databricks recomenda o seguinte recurso para converter JSON em YAML:

o passo 3: Adicione o YAML de definição de pipeline a um arquivo de configuração de pacote configurável

No arquivo de configuração do pacote, adicione o YAML que você copiou do passo anterior para um dos seguintes locais rótulo <pipeline-yaml-can-go-here> nos arquivos de configuração do pacote, como segue:

resources:
  pipelines:
    <some-unique-programmatic-identifier-for-this-pipeline>:
      <pipeline-yaml-can-go-here>

targets:
  <some-unique-programmatic-identifier-for-this-target>:
    resources:
      pipelines:
        <some-unique-programmatic-identifier-for-this-pipeline>:
          <pipeline-yaml-can-go-here>

o passo 4: Adicionar Notebook, arquivos Python e outros artefatos ao pacote

Quaisquer arquivos Python e Notebook referenciados no pipeline existente devem ser movidos para as fontes do pacote.

Para melhor compatibilidade com pacotes, Notebook deve usar o formato IPython Notebook (.ipynb). Se você desenvolver o pacote localmente, poderá exportar um notebook existente de um workspace do Databricks para o formato .ipynb clicando em Arquivo > Exportar > Notebook IPython na interface do usuário do notebook do Databricks. Por convenção, você deve colocar downloads Notebook o src/ no diretório do seu pacote.

Depois de adicionar seu Notebook, arquivos Python e outros artefatos ao pacote configurável, certifique-se de que sua definição de pipeline faça referência a eles. Por exemplo, para um Notebook com o nome de arquivo hello.ipynb que está em um diretório src/ e o diretório src/ está na mesma pasta que o arquivo de configuração do pacote configurável que faz referência ao diretório src/, a definição do pipeline pode ser expresso da seguinte forma:

resources:
  pipelines:
    hello-pipeline:
      name: hello-pipeline
      libraries:
      -
        notebook:
          path: ./src/hello.ipynb

o passo 5: Validar, implantar e executar o novo pipeline

  1. Valide se os arquivos de configuração do pacote estão sintaticamente corretos executando o seguinte comando:

    databricks bundle validate
    
  2. implante o pacote executando o seguinte comando. Neste comando, substitua <target-identifier> pelo identificador programático exclusivo do destino da configuração do pacote:

    databricks bundle deploy -t <target-identifier>
    
  3. execute o pipeline executando o seguinte comando. Neste comando, substitua o seguinte:

    • Substitua <target-identifier> pelo identificador programático exclusivo do destino da configuração do pacote.

    • Substitua <pipeline-identifier> pelo identificador programático exclusivo do pipeline da configuração do pacote.

    databricks bundle run -t <target-identifier> <pipeline-identifier>