Databricks Connect for Pythonをインストールする

注

この記事では、Databricks Runtime 13.3 LTS 以降の Databricks Connect について説明します。

この記事では、Databricks Connect for Python をインストールする方法について説明します。「Databricks Connect とは」を参照してください。この記事の Scala バージョンについては、「 Scala 用の Databricks Connect のインストール」を参照してください。

要件

Databricks Connect for Python をインストールするには、次の要件を満たす必要があります。

サーバレスコンピュートに接続する場合、ワークスペースはサーバレスコンピュートの要件を満たしている必要があります。

注

サーバレスコンピュートは、 Databricks Connect バージョン 15.1 以降でサポートされています。 Databricks ConnectDatabricks Runtimeまた、サーバレスのリリース以前のバージョンも完全に互換性があります。リリースノートを参照してください。Databricks Connectバージョンがサーバレスコンピュートと互換性があるかどうかを確認するには、Databricksへの接続の検証を参照してください。
クラスターに接続する場合、ターゲットクラスターは、Databricks Runtime のバージョン要件を含むクラスター構成要件を満たしている必要があります。

開発マシンに Python 3 がインストールされている必要があり、開発マシンにインストールされている Python のマイナーバージョンが以下の表のバージョン要件を満たしている必要があります。

クラスタータイプ	Databricks Connect バージョン	互換性のあるPythonバージョン
サーバーレス	15.1 以上	3.11
クラスター	15.1 以上	3.11
クラスター	13.3 LTS から 14.3 LTS	3.10

ユーザー定義関数 (UDF)Python Pythonを使用している場合、Databricks Runtime のローカルマイナーバージョンは、クラスタリングまたはサーバレスコンピュートのバージョンののマイナーバージョンと一致する必要があります。PythonDatabricks Runtimeクラスタリングの Databricks Runtimeバージョンのマイナーバージョンを見つけるには、そのバージョンのリリースノートの「システム環境」セクションを参照してください。リリースノートのバージョンと互換性Databricks Runtimeとサーバレスコンピュートリリースノートを参照してください。

Python仮想環境をアクティブにする

Databricks では、Databricks Connect で使用する Python バージョンごとに Python仮想環境をアクティブ化することを強くお勧めします。 Python 仮想環境は、Python と Databricks Connect の正しいバージョンを一緒に使用していることを確認するのに役立ちます。これらのツールとその有効化方法の詳細については、 venvまたはPoetry参照してください。

Databricks Connectクライアントをインストールする

このセクションでは、 venvまたはPoetryを使用して Databricks Connect クライアントをインストールする方法について説明します。

注

DatabricksVisual Studio Code のDatabricks 拡張機能が既にインストールされている場合は、Visual Studio Code の拡張機能にはDatabricks Connect Databricks Runtime13.3LTS 以降のの組み込みサポートが既に含まれているため、これらのセットアップ手順に従う必要はありません。Visual Studio Code の Databricks 拡張機能については、「Databricks Connect を使用してコードをデバッグする」にスキップします。

venvを使用して Databricks Connect クライアントをインストールする

仮想環境をアクティブ化した状態で、 uninstall コマンドを実行して、PySpark が既にインストールされている場合はアンインストールします。これは、 databricks-connect パッケージが PySpark と競合するためです。詳細については、「 PySpark インストールの競合」を参照してください。 PySpark が既にインストールされているかどうかを確認するには、 show コマンドを実行します。
```
# Is PySpark already installed?
pip3 show pyspark

# Uninstall PySpark
pip3 uninstall pyspark
```
仮想環境がまだアクティブ化されている状態で、 install コマンドを実行して Databricks Connect クライアントをインストールします。 --upgrade オプションを使用して、既存のクライアントインストールを指定したバージョンにアップグレードします。
```
pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
```
注

Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect=X.Yではなく "ドットアスタリスク" 表記を追加してdatabricks-connect==X.Y.*を指定することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。

Databricks Connect クライアントを Poetryと共にインストールする

仮想環境をアクティブ化した状態で、 remove コマンドを実行して、PySpark が既にインストールされている場合はアンインストールします。これは、 databricks-connect パッケージが PySpark と競合するためです。詳細については、「 PySpark インストールの競合」を参照してください。 PySpark が既にインストールされているかどうかを確認するには、 show コマンドを実行します。
```
# Is PySpark already installed?
poetry show pyspark

# Uninstall PySpark
poetry remove pyspark
```
仮想環境をアクティブ化した状態で、 add コマンドを実行して Databricks Connect クライアントをインストールします。
```
poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
```
注

Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect==15.4ではなく databricks-connect@~15.4 を指定する "at-tilde" 表記を使用することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。

次のステップ

Databricks Connect をインストールしたら、Databricks への接続を構成する必要があります。については、コンピュートの設定Databricks Connect を参照してください。