Use Eclipse com PyDev e Databricks Connect para Python

Observação

Este artigo abrange Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo aborda como usar o Databricks Connect para Scala e Eclipse com PyDev. O Databricks Connect permite conectar IDEs populares, servidores Notebook e outros aplicativos personalizados a clusters Databricks. Consulte O que é o Databricks Connect?.

Observação

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

Para usar o Databricks Connect e o Eclipse com PyDev, siga estas instruções.

  1. começar Eclipse.

  2. Crie um projeto: clique em Arquivo > Novo > Projeto > PyDev > Projeto PyDev e clique em Avançar.

  3. Especifique um nome de projeto.

  4. Para Project Contents, especifique o caminho para seu ambiente virtual Python.

  5. Clique em Configure um intérprete antes de continuar.

  6. Clique em Configuração manual.

  7. Clique em Novo > Procurar Python/pypy exe.

  8. Procure e selecione o caminho completo para o interpretador Python referenciado no ambiente virtual e clique em Abrir.

  9. Na caixa de diálogo Selecionar intérprete , clique em OK.

  10. Na caixa de diálogo Seleção necessária , clique em OK.

  11. Na caixa de diálogo Preferências , clique em Aplicar e Fechar.

  12. Na caixa de diálogo Projeto PyDev , clique em Concluir.

  13. Clique em Abrir perspectiva.

  14. Adicione ao projeto um arquivo de código Python (.py) que contém o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá inicializar no mínimo DatabricksSession conforme mostrado no código de exemplo.

  15. Com o arquivo de código Python aberto, defina quaisquer pontos de interrupção onde deseja que seu código seja pausado durante a execução.

  16. Para executar o código, clique em execução > execução. Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve operações DataFrame é executado nos clusters no workspace remoto do Databricks e as respostas de execução são enviadas de volta ao chamador local.

  17. Para depurar o código, clique em execução > Depurar. Todo o código Python é depurado localmente, enquanto todo o código PySpark continua a ser executado nos clusters no workspace remoto do Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.

Para obter instruções mais específicas de execução e depuração, consulte Executando um programa.