Use PyCharm com Databricks Connect para Python

Observação

Este artigo abrange Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo aborda como usar o Databricks Connect for Python com PyCharm. O Databricks Connect permite conectar IDEs populares, servidores Notebook e outros aplicativos personalizados a clusters Databricks. Consulte O que é o Databricks Connect?.

Observação

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

O IntelliJ IDEA Ultimate também fornece suporte de plugin para PyCharm com Python. Para obter detalhes, consulte Plug-in Python para IntelliJ IDEA Ultimate.

Para usar o Databricks Connect com o PyCharm e o Python, siga estas instruções para o venv ou o Poetry. Este artigo foi testado com PyCharm Community Edition 2023.3.5. Se o senhor usar uma versão ou edição diferente do PyCharm, as instruções a seguir poderão variar.

Use PyCharm com venv e Databricks Connect para Python

  1. começar PyCharm.

  2. Crie um projeto: clique em Arquivo > Novo Projeto.

  3. Na caixa de diálogo New Project (Novo projeto ), clique em Pure Python.

  4. Para Location, clique no ícone da pasta e selecione o caminho para o ambiente virtual venv existente que você criou em Instalar o Databricks Connect for Python.

  5. Para Tipo de interpretador, clique em Ambiente personalizado.

  6. Para Environment, selecione Select existing (Selecionar existente).

  7. Para Type, selecione Python.

  8. Para Path (Caminho), use o ícone de pasta ou a lista suspensa para selecionar o caminho para o interpretador Python no ambiente virtual venv existente.

    Dica

    O interpretador Python para um ambiente virtual venv normalmente é instalado em </path-to-venv>/bin. Para mais informações, consulte venv.

  9. Clique em OK.

  10. Clique em Criar.

  11. Adicione ao projeto um arquivo de código Python (.py) que contém o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá inicializar no mínimo DatabricksSession conforme mostrado no código de exemplo.

  12. Com o arquivo de código Python aberto, defina quaisquer pontos de interrupção onde deseja que seu código seja pausado durante a execução.

  13. Para executar o código, clique em execução > execução. Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve operações DataFrame é executado nos clusters no workspace remoto do Databricks e as respostas de execução são enviadas de volta ao chamador local.

  14. Para depurar o código, clique em execução > Depurar. Todo o código Python é depurado localmente, enquanto todo o código PySpark continua a ser executado nos clusters no workspace remoto do Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.

  15. Siga as instruções na tela para começar a executar ou eliminar o código.

Para obter instruções mais específicas de execução e depuração, consulte Executar sem nenhuma configuração anterior e Depurar.

Use PyCharm com Poetry e Databricks Connect para Python

  1. começar PyCharm.

  2. Crie um projeto: clique em Arquivo > Novo Projeto.

    1. Na caixa de diálogo New Project (Novo projeto ), clique em Pure Python.

  3. Para Location, clique no ícone da pasta e, em seguida, selecione o caminho para o ambiente virtual Poetry existente que você criou em Instalar o Databricks Connect for Python.

  4. Para Tipo de interpretador, clique em Ambiente personalizado.

  5. Para Environment, selecione Select existing (Selecionar existente).

  6. Para Type, selecione Python.

  7. Para Path (Caminho), use o ícone de pasta ou a lista suspensa para selecionar o caminho para o interpretador Python no ambiente virtual Poetry existente.

    Dica

    Certifique-se de selecionar o caminho para o interpretador Python. Não selecione o caminho para o executável Poetry.

    Para obter informações sobre onde a versão do sistema do interpretador Python está instalada, consulte Como adicionar Python ao PATH.

  8. Clique em OK.

  9. Clique em Criar.

  10. Adicione ao projeto um arquivo de código Python (.py) que contém o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá inicializar no mínimo DatabricksSession conforme mostrado no código de exemplo.

  11. Com o arquivo de código Python aberto, defina quaisquer pontos de interrupção onde deseja que seu código seja pausado durante a execução.

  12. Para executar o código, clique em execução > execução. Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve operações DataFrame é executado nos clusters no workspace remoto do Databricks e as respostas de execução são enviadas de volta ao chamador local.

  13. Para depurar o código, clique em execução > Depurar. Todo o código Python é depurado localmente, enquanto todo o código PySpark continua a ser executado nos clusters no workspace remoto do Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.

  14. Siga as instruções na tela para começar a executar ou eliminar o código.

Para obter instruções mais específicas de execução e depuração, consulte Executar sem nenhuma configuração anterior e Depurar.