Databricks Connect Para obter suporte para Python em Databricks Notebook

Observação

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Databricks Connect permite que o senhor se conecte ao site Databricks compute a partir de um ambiente de desenvolvimento local. Em seguida, o senhor pode desenvolver, depurar e testar o código diretamente do IDE antes de executá-lo como parte de um Notebook ou Job do Databricks. Consulte O que é o Databricks Connect?

Para obter informações sobre o uso do Databricks Connect com o Jupyter Notebook, consulte Use o Jupyter clássico Notebook com Databricks Connect para Python.

Limitações

Para que a transição do desenvolvimento local para a implementação no site Databricks seja perfeita, todos os recursos do Databricks Connect APIs estão disponíveis no Databricks Notebook. Isso permite que o senhor execute seu código em um notebook Databricks sem fazer nenhuma alteração no código. No entanto, há algumas diferenças entre usar Databricks Connect para Python em um ambiente de desenvolvimento local e em Databricks Notebook e Job:

  • Ao desenvolver localmente em um IDE, spark = DatabricksSession.builder.getOrCreate() obtém uma sessão Spark existente para a configuração fornecida, se ela existir, ou cria uma nova sessão, se ela não existir. Os parâmetros de conexão, como host, token e cluster_id, são preenchidos a partir do código-fonte, da variável de ambiente ou do arquivo de perfis de configuração .databrickscfg.

  • Ao desenvolver no Databricks Notebook, spark = DatabricksSession.builder.getOrCreate() retorna a sessão default Spark (também acessível por meio da variável spark) quando usada sem nenhuma configuração adicional. Uma nova sessão é criada se parâmetros de conexão adicionais forem definidos, por exemplo, usando DatabricksSession.builder.clusterId(...).getOrCreate() ou DatabricksSession.builder.serverless().getOrCreate().