Databricks Connect Para obter suporte para Python em Databricks Notebook
Observação
Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Databricks Connect permite que o senhor se conecte a Databricks compute a partir de um ambiente de desenvolvimento local fora de Databricks. Em seguida, o senhor pode desenvolver, depurar e testar o código diretamente do IDE antes de transferi-lo para um Notebook ou Job em Databricks. Consulte O que é o Databricks Connect?
Para obter informações sobre o uso do Databricks Connect com o Jupyter Notebook, consulte Use o Jupyter clássico Notebook com Databricks Connect para Python.
Portabilidade
Para fazer a transição do desenvolvimento local para a implantação em Databricks sem problemas, todos os Databricks Connect APIs estão disponíveis no Databricks Notebook como parte do Databricks Runtime correspondente. Isso permite que o senhor execute seu código em um notebook Databricks sem fazer nenhuma alteração no código.
Comportamento da sessão DataBricks
O comportamento de DatabricksSession
difere um pouco quando se usa Databricks Connect para Python em um ambiente de desenvolvimento local e em Notebook e Job no Databricks workspace.
Desenvolvimento local, comportamento ambiental
Ao executar o código localmente em um IDE fora do Databricks, DatabricksSession.builder.getOrCreate()
obtém a sessão do Spark existente para a configuração fornecida, se ela existir, ou cria uma nova sessão do Spark, se ela não existir. DatabricksSession.builder.create()
sempre cria uma nova sessão do Spark. Os parâmetros de conexão, como host
, token
e cluster_id
, são preenchidos a partir do código-fonte, da variável de ambiente ou do arquivo de perfis de configuração .databrickscfg
.
Em outras palavras, ao executar usando Databricks Connect, o código a seguir cria duas sessões separadas:
spark1 = DatabricksSession.builder.create()
spark2 = DatabricksSession.builder.create()
Comportamento do espaço de trabalho do Databricks
Ao executar o código em um Notebook ou Job no site Databricks workspace, DatabricksSession.builder.getOrCreate()
retorna a sessão default Spark (também acessível por meio da variável spark
) quando usada sem nenhuma configuração adicional. A variável spark
é pré-configurada para se conectar à instância do site compute à qual o Notebook ou Job está anexado. Uma nova sessão do Spark é criada se forem definidos parâmetros de conexão adicionais, por exemplo, usando DatabricksSession.builder.clusterId(...).getOrCreate()
ou DatabricksSession.builder.serverless().getOrCreate()
.
DatabricksSession.builder.create()
requer parâmetros de conexão explícitos em um Notebook, como DatabricksSession.builder.clusterId(...).create()
, caso contrário, retorna um erro [UNSUPPORTED]
.
É possível usar Databricks Connect para se conectar a Databricks compute que não esteja anexado ao Notebook ou Job usando remote()
, que recebe um kwargs de configuração ou os métodos de configuração individuais, como host()
ou token()
. Nesses casos, uma nova sessão é criada para o site compute referenciado, de forma semelhante a quando ele é usado fora de um notebook ou trabalho Databricks.
Observação
Para o Notebook em execução em serverless compute, por default as consultas expiram após 9000 segundos. O senhor pode personalizar isso definindo a propriedade de configuração spark.databricks.execution.timeout
do Spark. Consulte Definir propriedades de configuração do Spark no Databricks.