Usar o Databricks ativo Bundles com a versão 2 da extensão

Observação

A extensão Databricks para Visual Studio Code, versão 2, está em Private Preview.

A extensão Databricks para Visual Studio Code, versão 2, permite que o senhor use o Visual Studio Code para definir, implantar e executar os Databricks ativo Bundles, aplicando padrões de CI/CD e práticas recomendadas ao seu Databricks Job, pipeline Delta Live Tables e MLOps Stacks. Consulte O que são pacotes ativos da Databricks?

Suporte a pacotes do Databricks ativo em projetos

A extensão Databricks para Visual Studio Code, versão 2, adiciona o seguinte suporte para Databricks ativo Bundles em seus projetos de código:

  • Um arquivo databricks.yml descreve as configurações do seu Databricks ativo Bundle no formato YAML. O senhor pode usar o editor do Visual Studio Code para editar esse YAML. Para obter informações sobre a sintaxe YAML, consulte Configurações do Databricks ativo Bundle.

  • Um painel do DABs recurso Explorer é exibido na extensão do Databricks view, o que permite que o senhor navegue visualmente pelo recurso do Databricks ativo Bundle, implante o recurso do Databricks ativo Bundle local no Databricks remoto workspace com um único clique e vá diretamente para o recurso implantado no seu workspace a partir do Visual Studio Code. Consulte Usar o recurso Explorer dos DABs.

DABs recurso Explorer

Siga um destes procedimentos:

Abra um projeto existente do Databricks ativo Bundles

Se o senhor já tiver um projeto Databricks ativo Bundles, poderá abri-lo com a extensão Databricks para Visual Studio Code, versão 2, da seguinte forma:

Observação

O projeto deve ter um arquivo databricks.yml na pasta raiz do projeto. Consulte as configurações do Databricks ativo Bundle.

  1. Instale e configure a extensão Databricks para o Visual Studio Code, versão 2. Consulte Instalar e abrir a extensão Databricks para o Visual Studio Code, versão 2.

  2. Com a extensão da versão 2 ativa, abra o projeto existente do Databricks ativo Bundles: no menu principal, clique em File > Open Folder e siga as instruções na tela.

  3. A extensão examina o arquivo databricks.yml do projeto e o utiliza para tentar encontrar um perfil de configuração de autenticação Databricks correspondente em seu computador de desenvolvimento local a ser usado (que normalmente está em um arquivo .databrickscfg em ~ no Linux ou macOS ou em %USERPROFILE% no Windows).

    • Se a extensão encontrar um perfil correspondente, pule para o passo 12, onde o senhor adicionará as informações do cluster à extensão.

    • Se a extensão não conseguir encontrar um perfil correspondente, continue com os seguintes passos.

  4. No painel Configuração, clique em Login no Databricks.

    Faça login na Databricks
  5. Na paleta de comandos, se já houver um perfil de configuração de autenticação nessa lista que tenha o rótulo Autenticar usando o rótulo OAuth (Usuário para máquina) e que o senhor saiba que corresponde ao host de destino do Databricks, selecione-o na lista e faça o seguinte:

    1. Se solicitado, conclua todas as instruções na tela do navegador da Web para concluir a autenticação na Databricks.

    2. Se também for solicitado, permita o acesso a todos os aplicativos.

    3. Depois de fazer o login com sucesso, retorne ao Visual Studio Code.

    4. Avance para o passo 12, onde o senhor adicionará informações de cluster à extensão.

    Observação

    A Databricks recomenda que o senhor use a autenticação OAuth user-to-machine (U2M) para começar rapidamente. Para usar outros tipos de autenticação, consulte Configuração de autenticação para a extensão Databricks para VS Code.

  6. Em Select authentication method (Selecionar método de autenticação), selecione OAuth (usuário para máquina). Para usar outros tipos de autenticação, consulte Configuração de autenticação para a extensão Databricks para VS Code.

  7. Digite um nome para o perfil de autenticação associado do Databricks.

  8. No painel Configuração, clique em Login no Databricks.

    Faça login na Databricks
  9. Na paleta de comandos, em Select authentication method (Selecionar método de autenticação), selecione o nome do perfil de configuração de autenticação que o senhor acabou de criar.

  10. Se solicitado, conclua todas as instruções na tela do navegador da Web para concluir a autenticação na Databricks. Se também for solicitado, permita o acesso a todos os aplicativos.

  11. Depois de fazer o login com sucesso, retorne ao Visual Studio Code.

  12. Clique em Select a cluster (Selecionar um cluster) e, em seguida, clique no ícone de engrenagem(Configurar cluster).

    Configurar o cluster
  13. Na paleta de comandos, selecione um cluster existente ou clique em Create New cluster e siga as instruções na tela.

  14. Continue com Use the DABs recurso Explorer.

Adicionar suporte ao Databricks ativo Bundles a um projeto

O procedimento a seguir adiciona suporte básico para Databricks ativo Bundles a um projeto de código existente. O suporte é limitado a um único arquivo databricks.yml que especifica um destino de implantação, mas nenhum recurso, como o Databricks Job, o pipeline Delta Live Tables, o pacote Python ou o MLOps Stacks. Para especificar o recurso, além de um destino de implantação, pule para Criar um novo projeto Databricks ativo Bundles.

  1. Instale e configure a extensão Databricks para o Visual Studio Code, versão 2. Consulte Instalar e abrir a extensão Databricks para o Visual Studio Code, versão 2.

  2. Com a extensão ativa, abra o projeto de código existente: no menu principal, clique em File > Open Folder e siga as instruções na tela. A extensão adiciona o arquivo databricks.yml à pasta raiz do projeto.

  3. A extensão examina o projeto para tentar encontrar um perfil de configuração de autenticação Databricks correspondente em sua máquina de desenvolvimento local para usar (que normalmente está em um arquivo .databrickscfg em ~ no Linux ou macOS ou em %USERPROFILE% no Windows).

    • Se a extensão encontrar um perfil correspondente, pule para o passo 13, onde o senhor adicionará as informações do cluster à extensão.

    • Se a extensão não conseguir encontrar um perfil correspondente, continue com os seguintes passos.

    Observação

    Se uma entrada Login to Databricks aparecer no painel Configuration, clique nela e pule para o passo 10, onde o senhor acessará log in.

    Faça login na Databricks
  4. No painel Configuração, clique em Inicializar projeto.

    Inicializar o projeto
  5. Na paleta de comandos, para Databricks Host, digite o URL da instância do espaço de trabalho, por exemplo, https://1234567890123456.7.gcp.databricks.com. Em seguida, pressione Enter.

  6. Se já houver um perfil de configuração de autenticação nessa lista que tenha o rótulo Authenticate using OAuth (User to Machine) rótulo e que o senhor saiba que corresponde ao host de destino do Databricks, selecione-o na lista e faça o seguinte:

    1. Se solicitado, conclua todas as instruções na tela do navegador da Web para concluir a autenticação na Databricks.

    2. Se também for solicitado, permita o acesso a todos os aplicativos.

    3. Depois de fazer o login com sucesso, retorne ao Visual Studio Code.

    4. Avance para o passo 13, onde o senhor adicionará informações de cluster à extensão.

    Observação

    A Databricks recomenda que o senhor use a autenticação OAuth user-to-machine (U2M) para começar rapidamente. Para usar outros tipos de autenticação, consulte Configuração de autenticação para a extensão Databricks para VS Code.

  7. Em Select authentication method (Selecionar método de autenticação), selecione OAuth (usuário para máquina).

  8. Digite um nome para o perfil de autenticação associado do Databricks.

  9. No painel Configuração, clique em Login no Databricks.

    Faça login na Databricks
  10. Na paleta de comandos, em Select authentication method (Selecionar método de autenticação), selecione o nome do perfil de configuração de autenticação que o senhor acabou de criar.

  11. Se solicitado, conclua todas as instruções na tela do navegador da Web para concluir a autenticação na Databricks. Se também for solicitado, permita o acesso a todos os aplicativos.

  12. Depois de fazer o login com sucesso, retorne ao Visual Studio Code.

  13. Clique em Select a cluster (Selecionar um cluster) e, em seguida, clique no ícone de engrenagem(Configurar cluster).

    Configurar o cluster
  14. Na paleta de comandos, selecione um cluster existente ou clique em Create New cluster e siga as instruções na tela.

  15. Continue com Use the DABs recurso Explorer.

Criar um novo projeto Databricks ativo Bundles

  1. Instale e configure a extensão Databricks para o Visual Studio Code, versão 2. Consulte Instalar e abrir a extensão Databricks para o Visual Studio Code, versão 2.

  2. Com a extensão ativa, execute uma das seguintes ações:

    • Sem nenhuma pasta aberta no Visual Studio Code, no painel Configuração, clique em Inicializar projeto e selecione uma pasta pai para o novo projeto.

      Inicializar o projeto
    • Com uma pasta já aberta no Visual Studio Code, no painel Configuração, clique no ícone da pasta(Inicializar novo projeto).

      Inicializar o novo projeto
  3. Na paleta de comandos, escolha usar o perfil de configuração de autenticação atual ou criar um novo perfil. Se optar por usar seu perfil atual, conclua todas as instruções na tela e, em seguida, avance para o passo 8, no qual você selecionará o caminho em sua máquina de desenvolvimento local para criar o projeto.

  4. Para Databricks Host, digite o URL da instância do workspace, por exemplo, https://1234567890123456.7.gcp.databricks.com. Em seguida, pressione Enter.

  5. Se já houver um perfil de configuração de autenticação nessa lista que tenha o rótulo Authenticate using OAuth (User to Machine) rótulo e que o senhor saiba que corresponde ao host de destino do Databricks, selecione-o na lista e faça o seguinte:

    1. Se solicitado, conclua todas as instruções na tela do navegador da Web para concluir a autenticação na Databricks.

    2. Se também for solicitado, permita o acesso a todos os aplicativos.

    3. Avance para o passo 8, no qual o senhor selecionará o caminho em sua máquina de desenvolvimento local para criar o projeto.

    Observação

    A Databricks recomenda que o senhor use a autenticação OAuth user-to-machine (U2M) para começar rapidamente. Para usar outros tipos de autenticação, consulte Configuração de autenticação para a extensão Databricks para VS Code.

  6. Em Select authentication method (Selecionar método de autenticação), selecione OAuth (usuário para máquina).

  7. Em Enter a name for the new profile (Digite um nome para o novo perfil), digite um nome para esse novo perfil de configuração de autenticação que seja fácil para o senhor lembrar e pressione Enter.

  8. Se aparecer a mensagem Fornecer um caminho para uma pasta na qual o novo projeto deve estar, digite o caminho para uma pasta no computador de desenvolvimento local onde o projeto será criado ou clique em Abrir caixa de diálogo de seleção de pasta e selecione o caminho para a pasta do projeto.

  9. No editor Databricks Project Init tab, para o padrão a ser usado, use a seta para cima ou para baixo para selecionar um dos padrões de projeto Databricks ativo Bundle disponíveis para uso e, em seguida, pressione Enter. Esse procedimento usa o padrão de projeto default-python. Para obter informações sobre esses padrões, consulte o seguinte:

    Para obter informações sobre este padrão

    Veja...

    default-python

    Desenvolva um Job em Databricks usando o Databricks ativo Bundles, desenvolva o pipeline Delta Live Tables com o Databricks ativo Bundles e desenvolva um arquivo Python wheel usando o Databricks ativo Bundles

    mlops-stacks

    Databricks ativo Bundles for MLOps Stacks

  10. Para Unique name for this project (Nome exclusivo para este projeto), digite algum nome para este projeto e pressione Enter ou deixe o nome do projeto default de my_project pressionando Enter.

  11. Escolha se deseja adicionar um stub (amostra) Notebook, um stub (amostra) do pipeline Delta Live Tables ou um stub (amostra) do pacote Python ao projeto, ou qualquer combinação desses stubs (amostras).

  12. Pressione qualquer key para fechar o editor Databricks Project Init tab.

  13. Em Select the project you want to open (Selecionar o projeto que deseja abrir), escolha o caminho para a pasta que você especificou no passo 8.

  14. Continue com Use the DABs recurso Explorer.

Use o recurso Explorer dos DABs

O painel DABs recurso Explorer na extensão Databricks para Visual Studio Code, versão 2, usa o arquivo databricks.yml na raiz do seu projeto de código para mostrar visualmente o recurso do seu Databricks ativo Bundle e permite que o senhor implante e vá para o recurso em seu Databricks remoto workspace.

DABs recurso Explorer

Observação

As informações a seguir descrevem um arquivo databricks.yml simples. Se o senhor seguiu os passos em Create a new Databricks ativo Bundles project, o databricks.yml pode ter conteúdo adicional e seu arquivo databricks.yml pode depender de arquivos adicionais, conforme especificado em seu mapeamento include.

Por exemplo, uma definição simples do Databricks ativo Bundle pode ter a seguinte aparência em um único arquivo databricks.yml. Nesse arquivo, observe os seguintes espaços reservados:

  • <bundle-name> é o nome do Databricks ativo Bundle, que por default corresponde ao nome da pasta raiz do projeto de código. Ele já deve estar preenchido.

  • <cluster-id> é o ID do cluster que o senhor selecionou anteriormente neste artigo. O senhor deve substituir manualmente esse espaço reservado pelo ID do cluster.

  • <workspace-host-url> é o URL do seu Databricks workspace, que por default corresponde ao URL que o senhor inseriu quando adicionou o suporte a Databricks ativo Bundles ao seu projeto anteriormente neste artigo. Ele já deve estar preenchido.

bundle:
  name: <bundle-name>

resources:
  jobs:
    my-notebook-job:
      name: "My Notebook Job"
      tasks:
        - task_key: my-notebook-task
          existing_cluster_id: <cluster-id>
          notebook_task:
            notebook_path: notebooks/my-notebook.py

targets:
  dev:
    mode: development
    default: true
    workspace:
      host: <workspace-host-url>

Para obter informações sobre a sintaxe YAML, consulte Configurações do Databricks ativo Bundle.

Para que esse pacote ativo do Databricks funcione corretamente, o senhor deve adicionar um arquivo chamado my-notebook.py a uma pasta chamada notebooks. Essa pasta notebooks deve estar na mesma pasta que o arquivo databricks.yaml, conforme definido pelo caminho relativo em notebook_path. O arquivo my-notebook.py pode ser tão simples quanto o seguinte, que é um Notebook que imprime apenas as cadeias de caracteres Hello, World!:

# Databricks notebook source
print("Hello, World!")

Depois de salvar os arquivos my-notebook.py e databricks.yml em seu projeto de código, o painel DABs recurso Explorer na extensão deverá mostrar uma representação gráfica do recurso do seu Databricks ativo Bundle.

DABs recurso Explorer

Para implantar o Databricks ativo Bundle, no painel DABs recurso Explorer, clique no ícone cloud (implantado bundle).

implantado bundle

Para executar o Job, no painel DABs recurso Explorer, clique em My Notebook Job e, em seguida, clique no ícone play(implantado o pacote e executado o recurso).

implantado o bundle e executado o recurso

Para view a execução Job, no painel DABs recurso Explorer, expanda My Notebook Job, clique em Run Status e, em seguida, clique no ícone de links(Abrir link externamente).

Abrir externamente o link Job

Para alternar para um destino de implementação diferente (por exemplo, alternar de um destino dev para um destino prod), no painel Configuração, clique no ícone de destino e clique no ícone de engrenagem(Selecionar um destino do pacote ativo Databricks). Em seguida, na paleta de comandos, selecione o destino de implementação desejado.

Selecione um destino do Databricks ativo Bundle