Tutorial de extensão VSCode para Databricks: execução Python em clusters e como Job

Este tutorial demonstra como começar a usar a extensão Databricks para Visual Studio Code executando um arquivo de código Python básico em clusters do Databricks e como uma execução Job do Databricks em seu workspace remoto. Consulte O que é a extensão Databricks para Visual Studio Code?.

O que você fará neste tutorial?

Neste tutorial prático, você faz o seguinte:

  • Crie clusters Databricks para executar seu código Python local.

  • Instale o Visual Studio Code e a extensão Databricks para Visual Studio Code.

  • Configure a autenticação do Databricks e configure a extensão Databricks para Visual Studio Code com esta informação.

  • Configure a extensão Databricks para Visual Studio Code com informações sobre seus clusters remotos e tenha a extensão para iniciar os clusters.

  • Configure a extensão Databricks para Visual Studio Code com o local em seu workspace remoto do Databricks para carregar seu código Python local e faça com que a extensão comece a escutar eventos de upload de código.

  • Escreva e salve algum código Python, que aciona um evento de upload de código.

  • Use a extensão Databricks para Visual Studio Code para executar o código upload em seus clusters remotos e, em seguida, executá-lo com seus clusters como uma execução Job remota.

Este tutorial demonstra apenas como executar um arquivo de código Python e este tutorial demonstra apenas como configurar a autenticação usuário-máquina (U2M) OAuth. Para saber como depurar arquivos de código Python, executar e depurar Notebook e configurar outros tipos de autenticação, veja Próximos passos.

Observação

O tutorial a seguir usa a extensão Databricks para o Visual Studio Code, versão 1. Para concluir este tutorial da extensão Databricks para Visual Studio Code, versão 2, atualmente em Private Preview, pule para o tutorial da extensão VSCode para Databricks, versão 2: execução do Python em um cluster e como um Job.

Etapa 1: criar um cluster

Se o senhor já tiver um cluster Databricks remoto que deseja usar, anote o nome do cluster e pule para o passo 2 para instalar o Visual Studio Code. Para acessar view os clusters disponíveis, na barra lateral do site workspace, clique em compute.

A Databricks recomenda que o senhor crie clusters do Personal Compute para começar a trabalhar rapidamente. Para criar esses clusters, faça o seguinte:

  1. No seu workspace do Databricks, na barra lateral, clique em compute.

  2. Clique em Criar com computepessoal.

  3. Clique em Criar compute.

  4. Anote o nome do seu cluster, pois o senhor precisará dele mais tarde, no passo 5, quando adicionar as informações do cluster à extensão.

o passo 2: Instale o código do Visual Studio

Para instalar o Visual Studio Code, siga as instruções para macOS, Linux ou Windows.

Se você já possui o Visual Studio Code instalado, verifique se é a versão 1.69.1 ou superior. Para fazer isso, no Visual Studio Code, no menu principal, clique em Código > Sobre o Visual Studio Code para macOS ou Ajuda > Sobre para Linux ou Windows.

Para atualizar o Visual Studio Code, no menu principal, clique em Código > Verificar atualizações para macOS ou Ajuda > Verificar atualizações para Linux ou Windows.

o passo 3: Instale a extensão Databricks

Instale a extensão do Visual Studio Code
  1. Na barra lateral do Visual Studio Code, clique no ícone Extensões .

  2. Em Extensões de pesquisa no marketplace, insira Databricks.

  3. No rótulo de entrada Databricks com o subtítulo IDE support for Databricks by Databricks, clique em Install.

o passo 4: Configurar a autenticação do Databricks

Nesta etapa, você habilita a autenticação entre a extensão Databricks para Visual Studio Code e seu workspace remoto do Databricks, da seguinte forma:

  1. No Visual Studio Code, abra uma pasta vazia em sua máquina de desenvolvimento local que será usada para conter o código Python que será criado e executado posteriormente no passo 7. Para fazer isso, no menu principal, clique em File > Open Folder e siga as instruções na tela.

  2. Na barra lateral do Visual Studio Code, clique no ícone do logotipo do Databricks .

  3. No painel Configuração , clique em Configurar Databricks.

  4. No comando Palette, para Databricks Host, insira o URL da instância do seu espaço de trabalho, por exemplo https://1234567890123456.7.gcp.databricks.com. Em seguida, pressione Enter.

  5. Selecione OAuth (usuário para máquina).

  6. Complete as instruções na tela do navegador da Web para concluir a autenticação na Databricks. Se solicitado, permita o acesso a todos os aplicativos.

o passo 5: Adicionar informações clusters à extensão Databricks e iniciar os clusters

  1. Com o painel Configuration já aberto do passo anterior em que você configurou a autenticação, ao lado de clusterclique no ícone de engrenagem(Configurar cluster).

  2. Na paleta de comando, selecione o nome dos clusters que você criou no passo 1.

  3. começar os clusters, se ainda não estiver começar: ao lado de clusters, se o ícone play (começar clusters) estiver visível, clique nele.

começar os clusters

o passo 6: Adicione o local de upload do código à extensão Databricks e inicie o ouvinte de upload

  1. Com o painel Configuration (Configuração ) já aberto no passo anterior em que o senhor adicionou as informações do cluster, ao lado de Sync Destination (Destino de sincronização), clique no ícone de engrenagem(Configurar destino de sincronização).

  2. Na paleta de comandos, selecione Criar novo destino de sincronização.

  3. Pressione Enter para confirmar o nome do diretório de upload remoto gerado.

  4. comece o ouvinte de upload, se ainda não estiver, comece: ao lado de Sync Destination, se o ícone do círculo com seta (começar sincronização) estiver visível, clique nele.

começar o ouvinte de upload

o passo 7: Criar e executar código Python

  1. Crie um arquivo de código Python local: na barra lateral, clique no ícone da pasta (Explorador).

  2. No menu principal, clique em Arquivo > Novo Arquivo. Nomeie o arquivo demo.py e salve-o na raiz do projeto.

  3. Adicione o seguinte código ao arquivo e salve-o. Este código cria e exibe o conteúdo de um DataFrame PySpark básico:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Na do Explorer view, clique com o demo.py botão direito no arquivo e clique em Carregar e executar arquivo no Databricks. A saída aparece no painel Console de depuração .

upload e arquivo de execução no Databricks

o passo 8: execução do código como Job

Na etapa anterior, você executou seu código Python diretamente nos clusters remotos. Nesta etapa, você inicia um fluxo de trabalho que usa os clusters para executar o código como um Job do Databricks. Consulte O que são trabalhos do Databricks?.

Para executar esse código como Job, na do Explorer view, clique com o botão direito do demo.py mouse no arquivo e clique em execução File as Workflow on Databricks. A saída aparece em uma tab de editor separada próxima ao editor de arquivo demo.py.

Arquivo de execução como fluxo de trabalho no Databricks

O senhor chegou ao final deste tutorial.

Próximas etapas

Agora que você usou com êxito a extensão Databricks para Visual Studio Code para upload um arquivo Python local e executá-lo remotamente, saiba mais sobre como usar a extensão:

Tutorial da extensão VSCode para Databricks, versão 2: execução de Python em um cluster e como um Job

Observação

Este tutorial usa a extensão Databricks para o Visual Studio Code, versão 2, que está em Private Preview.

Etapa 1: criar um cluster

Se o senhor já tiver um cluster Databricks remoto que deseja usar, anote o nome do cluster e pule para o passo 2, onde instalará o Visual Studio Code. Para acessar view os clusters disponíveis, na barra lateral do site workspace, clique em compute.

A Databricks recomenda que o senhor crie um cluster compute pessoal para começar a trabalhar rapidamente. Para criar esse cluster, faça o seguinte:

  1. No seu workspace do Databricks, na barra lateral, clique em compute.

  2. Clique em Criar com computepessoal.

  3. Clique em Criar compute.

  4. Anote o nome do cluster, pois o senhor precisará dele mais tarde, no passo 5, quando adicionar as informações do cluster à extensão.

o passo 2: Instale o código do Visual Studio

Para instalar o Visual Studio Code, siga as instruções para macOS, Linux ou Windows.

Se você já possui o Visual Studio Code instalado, verifique se é a versão 1.69.1 ou superior. Para fazer isso, no Visual Studio Code, no menu principal, clique em Código > Sobre o Visual Studio Code para macOS ou Ajuda > Sobre para Linux ou Windows.

Para atualizar o Visual Studio Code, no menu principal, clique em Código > Verificar atualizações para macOS ou Ajuda > Verificar atualizações para Linux ou Windows.

o passo 3: Instale a extensão Databricks

Instale a extensão do Visual Studio Code
  1. Na barra lateral do Visual Studio Code, clique no ícone Extensões .

  2. Em Extensões de pesquisa no marketplace, insira Databricks.

  3. No rótulo da entrada Databricks com o subtítulo IDE support for Databricks by Databricks, clique na seta para baixo ao lado de Install e, em seguida, clique em Install Pre-Release Version.

  4. Siga um destes procedimentos:

    • Se o senhor ainda não aceitou os termos e condições referentes a esta visualização, clique em Contate-nos e siga as instruções na tela para enviar uma solicitação à Databricks. O senhor não poderá usar esta visualização até que tenha aceitado os termos e condições da Databricks.

    • Se o senhor já tiver aceitado os termos e condições referentes a essa visualização, clique em Continue se já estiver inscrito e, em seguida, clique em Reload Required (Recarregar necessário ) ou reinicie o Visual Studio Code.

o passo 4: Configurar a autenticação do Databricks

Nesta etapa, você habilita a autenticação entre a extensão Databricks para Visual Studio Code e seu workspace remoto do Databricks, da seguinte forma:

  1. No Visual Studio Code, clique em File > Open Folder e abra uma pasta vazia em seu computador de desenvolvimento local.

  2. Na barra lateral, clique no ícone do logotipo da Databricks.

  3. No painel Configuração, clique em Inicializar projeto.

    Inicializar novo projeto
  4. No comando Palette, para Databricks Host, insira o URL da instância do seu espaço de trabalho, por exemplo https://1234567890123456.7.gcp.databricks.com. Em seguida, pressione Enter.

  5. Se já houver um perfil de configuração de autenticação nessa lista que tenha o rótulo Authenticate using OAuth (User to Machine) rótulo e que o senhor saiba que corresponde ao host de destino do Databricks, selecione-o na lista e faça o seguinte:

    1. Se solicitado, conclua todas as instruções na tela do navegador da Web para concluir a autenticação na Databricks.

    2. Se também for solicitado, permita o acesso a todos os aplicativos.

    3. Avance para o passo 5, onde o senhor adicionará informações de cluster à extensão.

  6. Em Select authentication method (Selecionar método de autenticação), selecione OAuth (usuário para máquina).

    Observação

    A Databricks recomenda que o senhor selecione OAuth (usuário para máquina) para começar rapidamente. Para usar outros tipos de autenticação, consulte Configuração de autenticação para a extensão Databricks para Visual Studio Code.

  7. Digite um nome para o perfil de autenticação associado do Databricks.

  8. No painel Configuração, clique em Login no Databricks.

    Faça login na Databricks
  9. Na paleta de comandos, em Select authentication method (Selecionar método de autenticação), selecione o nome do perfil de configuração de autenticação que o senhor acabou de criar.

  10. Se solicitado, conclua todas as instruções na tela do navegador da Web para concluir a autenticação na Databricks. Se também for solicitado, permita o acesso a todos os aplicativos.

  11. Depois de fazer o login com sucesso, retorne ao Visual Studio Code.

o passo 5: Adicionar informações clusters à extensão Databricks e iniciar os clusters

  1. Com o painel Configuration já aberto desde o passo 4, onde o senhor configurou a autenticação, clique em Select a cluster (Selecionar um cluster) e, em seguida, clique no ícone de engrenagem(Configurar cluster).

    Configurar o cluster
  2. Na paleta de comandos, selecione o nome do cluster que o senhor criou anteriormente no passo 1.

  3. começar o cluster, se ele ainda não estiver começando: clique em cluster e, se o ícone de reprodução(começar cluster) estiver visível, clique nele.

o passo 6: Criar e executar código Python

  1. Crie um arquivo de código Python local: na barra lateral, clique no ícone da pasta (Explorador).

  2. No menu principal, clique em Arquivo > Novo Arquivo. Nomeie o arquivo demo.py e salve-o na raiz do projeto.

  3. Adicione o seguinte código ao arquivo e salve-o. Este código cria e exibe o conteúdo de um DataFrame PySpark básico:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. No Explorer view, clique com o botão direito do mouse no arquivo demo.py e, em seguida, clique em execução em Databricks > upload e execução File. A saída aparece no painel Console de depuração.

    upload e executar o arquivo no menu de contexto

    Dica

    Outra maneira de fazer isso é clicar no ícone de execução no Databricks ao lado da lista da guia do editor e, em seguida, clicar em upload e executar File.

    upload e executar o arquivo a partir do ícone

o passo 7: execução do código como um Job

Na etapa anterior, você executou seu código Python diretamente nos clusters remotos. Nesta etapa, você inicia um fluxo de trabalho que usa os clusters para executar o código como um Job do Databricks. Consulte O que são trabalhos do Databricks?.

Para executar esse código como um Job, no Explorer view, clique com o botão direito do mouse no arquivo demo.py e, em seguida, clique em executar em Databricks > executar File as fluxo de trabalho. A saída aparece em um editor separado tab ao lado do editor de arquivos demo.py.

executar arquivo como fluxo de trabalho a partir do menu de contexto

Dica

Outra maneira de fazer isso é clicar no ícone de execução no Databricks ao lado da lista da guia do editor e, em seguida, clicar em executar File as Workflow.

execução de arquivo como fluxo de trabalho a partir do ícone

O senhor chegou ao final deste tutorial.

Próximas etapas

Agora que o senhor já usou com sucesso a extensão Databricks para o Visual Studio Code para upload um arquivo Python local e executá-lo remotamente, saiba como ativar o PySpark e as utilidades do Databricks para autocompletar código, executar ou depurar código Python com o Databricks Connect, usar os Databricks ativo Bundles, executar um arquivo ou um Notebook como um Databricks Job, executar testes com pytest, usar arquivos de definições de variável de ambiente, criar configurações de execução personalizadas e muito mais. Consulte a tarefa de desenvolvimento da extensão Databricks para o Visual Studio Code.