Solução de problemas do Databricks Connect para Python
Observação
Este artigo abrange Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Este artigo fornece informações de solução de problemas do Databricks Connect para Python. O Databricks Connect permite conectar IDEs populares, servidores Notebook e aplicativos personalizados a clusters Databricks. Consulte O que é o Databricks Connect?. Para a versão Scala destes artigos, consulte Solução de problemas do Databricks Connect for Scala.
Incompatibilidade de versão do Python
Verifique se a versão do Python que você está usando localmente tem pelo menos a mesma versão secundária da versão nos clusters (por exemplo, 3.10.11
versus 3.10.10
está OK, 3.10
versus 3.9
não).
Se tiver várias versões Python instaladas localmente, certifique-se de que o Databricks Connect está a utilizar a versão correta definindo a variável de ambiente PYSPARK_PYTHON
(por exemplo, PYSPARK_PYTHON=python3
).
Instalações conflitantes do PySpark
O pacote databricks-connect
está em conflito com o PySpark. Ter ambos instalados causará erros ao inicializar o contexto Spark em Python. Isso pode se manifestar de diversas maneiras, incluindo erros de “transmissão corrompida” ou “classe não encontrada”. Se tiver o PySpark instalado no seu ambiente Python, certifique-se de que está desinstalado antes de instalar o databricks-connect. Após desinstalar o PySpark, certifique-se de reinstalar completamente o pacote Databricks Connect:
pip3 uninstall pyspark
pip3 uninstall databricks-connect
pip3 install --upgrade "databricks-connect==14.0.*" # or X.Y.* to match your specific cluster version.
Entrada PATH
conflitante ou ausente para binários
É possível que seu PATH esteja configurado para que comandos como spark-shell
executem algum outro binário instalado anteriormente em vez daquele fornecido com o Databricks Connect. Você deve certificar-se de que os binários do Databricks Connect tenham precedência ou remover os instalados anteriormente.
Se você não puder executar comandos como spark-shell
, também é possível que seu PATH não tenha sido configurado automaticamente por pip3 install
e você precisará adicionar o diretório de instalação bin
ao seu PATH manualmente. É possível usar o Databricks Connect com IDEs mesmo que não esteja configurado.
A sintaxe do nome do arquivo, do diretório ou do rótulo do volume está incorreta no Windows
Se você estiver usando o Databricks Connect no Windows e veja:
The filename, directory name, or volume label syntax is incorrect.
O Databricks Connect foi instalado em um diretório com um espaço no seu caminho. Você pode contornar isso instalando em um caminho de diretório sem espaços ou configurando seu caminho usando o formato de nome abreviado.