Instale o Databricks Connect para Python

Observação

Este artigo abrange Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo descreve como instalar o Databricks Connect para Python. Consulte O que é o Databricks Connect?. Para a versão Scala destes artigos, consulte Instalar o Databricks Connect for Scala.

Requisitos

Para instalar o Databricks Connect for Python, os seguintes requisitos devem ser atendidos:

  • Se o senhor estiver se conectando a serverless computeseu workspace deve atender aos requisitos de serverless compute .

    Observação

    O compute sem servidor é compatível com o Databricks Connect versão 15.1 e o acima. Além disso, as versões do Databricks Connect iguais ou inferiores à versão do Databricks Runtime em serverless são totalmente compatíveis. Veja as notas sobre a versão. Para verificar se a versão Databricks Connect é compatível com serverless compute, consulte Validar a conexão com Databricks.

  • Se o senhor estiver se conectando a um cluster, o cluster de destino deverá atender aos requisitos de configuração do cluster, o que inclui os requisitos da versão do Databricks Runtime.

  • O senhor deve ter o Python 3 instalado em sua máquina de desenvolvimento, e a versão secundária do Python instalada em sua máquina de desenvolvimento deve atender aos requisitos de versão da tabela abaixo.

    Tipo de Compute

    Versão do Databricks Connect

    Versão compatível do Python

    Serverless

    15.1 e acima

    3.11

    Cluster

    15.1 e acima

    3.11

    Cluster

    13.3 LTS para 14.3 LTS

    3.10

  • Se estiver usando funções definidas pelo usuário (UDFs), a versão local secundária de Python deve corresponder à versão secundária de Python da versão Databricks Runtime do clustering ou serverless compute. Para encontrar a versão secundária Python da versão Databricks Runtime do seu clustering, consulte a seção Ambiente do sistema das Databricks Runtime notas sobre a versão para essa versão. Consulte Databricks Runtime notas sobre a versão, versões e compatibilidade e serverless compute notas sobre a versão.

Ativar um ambiente virtual Python

A Databricks recomenda enfaticamente que o senhor tenha um ambiente virtual Python ativado para cada versão do Python que usar com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir que o senhor esteja usando as versões corretas do Python e do Databricks Connect juntos. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte o site ou Poetry.

Instalar o cliente Databricks Connect

Esta seção descreve como instalar o cliente Databricks Connect com o venv ou o Poetry.

Observação

Se o senhor já tiver a extensão Databricks para Visual Studio Code instalada, não precisará seguir estas instruções de configuração, pois a extensão Databricks para Visual Studio Code já tem suporte integrado para Databricks Connect para Databricks Runtime 13.3 LTS e acima. Pule para Depurar código usando o Databricks Connect para a extensão Databricks para Visual Studio Code.

Instale o cliente Databricks Connect com venv

  1. Com seu ambiente virtual ativado, desinstale o PySpark, caso já esteja instalado, executando o comando uninstall . Isso é necessário porque o pacote databricks-connect entra em conflito com o PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comando show .

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o comando install . Use a opção --upgrade para fazer upgrade de qualquer instalação de cliente existente para a versão especificada.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Observação

    A Databricks recomenda que você anexe a notação “ponto-asterisco” para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ajuda a garantir que você possa usar o recurso compatível mais recente para esses clusters.

Instale o cliente Databricks Connect com Poetry

  1. Com seu ambiente virtual ativado, desinstale o PySpark, caso já esteja instalado, executando o comando remove . Isso é necessário porque o pacote databricks-connect entra em conflito com o PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comando show .

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o comando add .

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Observação

    A Databricks recomenda que você use a notação “at-tilde” para especificar databricks-connect@~15.4 em vez de databricks-connect==15.4, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ajuda a garantir que você possa usar o recurso compatível mais recente para esses clusters.

Próximos passos

Depois de instalar o Databricks Connect, o senhor precisa configurar uma conexão com o Databricks. Consulte a configuração de computação para Databricks Connect.