Migrar para o Databricks Connect para Python

Este artigo descreve como migrar de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima para Python. Databricks Connect Permite que o senhor conecte os populares servidores IDEs, Notebook e aplicativos personalizados a Databricks clusters. Consulte O que é o Databricks Connect? Para obter a versão Scala deste artigo, consulte Migrate to Databricks Connect for Scala.

Observação

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

Siga estas diretrizes para migrar seu projeto de código Python ou ambiente de codificação existente de Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para Databricks Connect para Databricks Runtime 13.3 LTS e acima.

  1. Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder aos clusters do Databricks, se ainda não estiver instalado localmente.

  2. Atualize seu ambiente virtual Python para usar a versão correta do Python para corresponder aos seus clusters, se necessário. Para obter instruções, consulte a documentação do seu provedor de ambiente virtual.

  3. Com o seu ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:

    pip3 uninstall pyspark
    
  4. Com o seu ambiente virtual ainda ativado, desinstale o Databricks Connect for Databricks Runtime 12.2 LTS e abaixo:

    pip3 uninstall databricks-connect
    
  5. Com o ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Observação

    A Databricks recomenda que você anexe a notação “ponto-asterisco” para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ajuda a garantir que você possa usar o recurso compatível mais recente para esses clusters.

  6. Atualize seu código Python para inicializar a variável spark (que representa uma instanciação da classe DatabricksSession , semelhante a SparkSession no PySpark). Para obter exemplos de código, consulte Instalar o Databricks Connect para Python.

  7. Migre suas APIs RDD para usar APIs DataFrame e migre seu SparkContext para usar alternativas.

Definir configurações do Hadoop

No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set , que se aplica a operações SQL e DataFrame. As configurações do Hadoop definidas em sparkContext devem ser definidas na configuração clusters ou usando um Notebook. Isso ocorre porque as configurações definidas em sparkContext não estão vinculadas às sessões do usuário, mas se aplicam a todos os clusters.