Instale o Databricks Connect para Python
Observação
Este artigo abrange Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Este artigo descreve como instalar o Databricks Connect para Python. Consulte O que é o Databricks Connect?. Para a versão Scala destes artigos, consulte Instalar o Databricks Connect for Scala.
Requisitos
Para instalar o Databricks Connect for Python, os seguintes requisitos devem ser atendidos:
Se o senhor estiver se conectando a serverless computeseu workspace deve atender aos requisitos de serverless compute .
Observação
O compute sem servidor é compatível com o Databricks Connect versão 15.1 e o acima. Além disso, as versões do Databricks Connect iguais ou inferiores à versão do Databricks Runtime em serverless são totalmente compatíveis. Veja as notas sobre a versão. Para verificar se a versão Databricks Connect é compatível com serverless compute, consulte Validar a conexão com Databricks.
Se o senhor estiver se conectando a um cluster, o cluster de destino deverá atender aos requisitos de configuração do cluster, o que inclui os requisitos da versão do Databricks Runtime.
O senhor deve ter o Python 3 instalado em sua máquina de desenvolvimento, e a versão secundária do Python instalada em sua máquina de desenvolvimento deve atender aos requisitos de versão da tabela abaixo.
Se estiver usando funções definidas pelo usuário (UDFs), a versão local secundária de Python deve corresponder à versão secundária de Python da versão Databricks Runtime do clustering ou serverless compute. Para encontrar a versão secundária Python da versão Databricks Runtime do seu clustering, consulte a seção Ambiente do sistema das Databricks Runtime notas sobre a versão para essa versão. Consulte Databricks Runtime notas sobre a versão, versões e compatibilidade e serverless compute notas sobre a versão.
Matriz de suporte de versão
A tabela a seguir mostra as versões compatíveis do Databricks Connect e do Python. Os números de versão do Databricks Connect correspondem aos números de versão do Databricks Runtime.
Tipo de Compute |
Versão do Databricks Connect |
Versão compatível do Python |
---|---|---|
Serverless |
16.1 e acima |
3,12 |
Cluster |
16.0 e acima |
3,12 |
Cluster |
15.0 a 15.4 LTS |
3.11 |
Cluster |
13.3 LTS para 14.3 LTS |
3.10 |
Ativar um ambiente virtual Python
A Databricks recomenda enfaticamente que o senhor tenha um ambiente virtual Python ativado para cada versão do Python que usar com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir que o senhor esteja usando as versões corretas do Python e do Databricks Connect juntos. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte o site ou Poetry.
Instalar o cliente Databricks Connect
Esta seção descreve como instalar o cliente Databricks Connect com o venv ou o Poetry.
Observação
Se o senhor já tiver a extensão Databricks para Visual Studio Code instalada, não precisará seguir estas instruções de configuração, pois a extensão Databricks para Visual Studio Code já tem suporte integrado para Databricks Connect para Databricks Runtime 13.3 LTS e acima. Pule para Depurar código usando o Databricks Connect para a extensão Databricks para Visual Studio Code.
Instale o cliente Databricks Connect com venv
Com seu ambiente virtual ativado, desinstale o PySpark, caso já esteja instalado, executando o comando
uninstall
. Isso é necessário porque o pacotedatabricks-connect
entra em conflito com o PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comandoshow
.# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o comando
install
. Use a opção--upgrade
para fazer upgrade de qualquer instalação de cliente existente para a versão especificada.pip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
Observação
A Databricks recomenda que você anexe a notação “ponto-asterisco” para especificar
databricks-connect==X.Y.*
em vez dedatabricks-connect=X.Y
, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ajuda a garantir que você possa usar o recurso compatível mais recente para esses clusters.
Instale o cliente Databricks Connect com Poetry
Com seu ambiente virtual ativado, desinstale o PySpark, caso já esteja instalado, executando o comando
remove
. Isso é necessário porque o pacotedatabricks-connect
entra em conflito com o PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comandoshow
.# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o comando
add
.poetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
Observação
A Databricks recomenda que você use a notação “at-tilde” para especificar
databricks-connect@~15.4
em vez dedatabricks-connect==15.4
, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ajuda a garantir que você possa usar o recurso compatível mais recente para esses clusters.
Próximos passos
Depois de instalar o Databricks Connect, o senhor precisa configurar uma conexão com o Databricks. Consulte a configuração de computação para Databricks Connect.