パッケージリポジトリからのライブラリのインストール

Databricks は、PyPI、Maven、および CRAN パッケージ リポジトリからライブラリをインストールするツールを提供します。 ライブラリの完全な互換性の詳細については、クラスター スコープのライブラリを参照してください。

重要

ライブラリは、Databricks Runtime 14.3 LTS 以前を使用している場合は DBFS からインストールできます。 ただし、ワークスペース ユーザーは誰でも DBFS に格納されているライブラリ ファイルを変更できます。 Databricksワークスペースでのライブラリのセキュリティを向上させるために、DBFSルートへのライブラリファイルの保存は、Databricks Runtime 15.1 以降のデフォルトによって非推奨になり、無効になっています。「DBFSルートでのライブラリの保存は、デフォルトによって非推奨および無効化されています」を参照してください。

代わりに、 、 Databricksライブラリ、PythonJAR ファイル、Spark コネクタを含むすべてのライブラリをワークスペース ファイルまたはUnity Catalog ボリュームにアップロードするか、ライブラリ パッケージ リポジトリを使用すること をお勧めします 。ワークロードがこれらのパターンをサポートしていない場合は、クラウドオブジェクトストレージに保存されているライブラリを使用することもできます。

PyPI パッケージ

  1. [ ライブラリ ソース ] ボタンの一覧で、[ PyPI] を選択します。

  2. PyPI パッケージ名を入力します。 ライブラリの特定のバージョンをインストールするには、ライブラリに次の形式を使用します: <library>==<version>. たとえば、 scikit-learn==0.19.1.

    ジョブの場合、Databricks では、再現可能な環境を確保するためにライブラリのバージョンを指定することをお勧めします。ライブラリのバージョンが完全に指定されていない場合、Databricks は一致する最新のバージョンを使用します。 つまり、同じジョブの異なる実行では、新しいバージョンが発行されるときに異なるライブラリ バージョンが使用される可能性があります。 ライブラリのバージョンを指定すると、ライブラリ内の新しい破壊的変更によってジョブが中断されるのを防ぐことができます。

  3. (オプション)[インデックス URL] フィールドに、PyPI インデックス URL を入力します。

  4. インストール」をクリックします。

Maven または Spark パッケージ

重要

共有アクセス モードで構成されたコンピュートに Maven ライブラリをインストールするには、座標を許可リストに追加する必要があります。 共有コンピュートの許可リストライブラリとinitスクリプトを参照してください。

重要

DBR 14.3 LTS 以下の場合、Databricks は Apache Ivy 2.4.0 を使用して Maven パッケージを解決します。 DBR 15.0 以降の場合、Databricks は Ivy 2.5.1 以降を使用し、特定の Ivy バージョンは「Databricks Runtime リリース ノートのバージョンと互換性」にリストされています。

Maven パッケージのインストール順序は最終的な依存関係ツリーに影響を与える可能性があり、ライブラリがロードされる順序に影響を与える可能性があります。

  1. [ ライブラリ ソース ] ボタンの一覧で、[ Maven] を選択します。

  2. Maven 座標を指定します。 次のいずれかの操作を行います。

    • 「座標」フィールドに、インストールするライブラリーの Maven 座標を入力します。 Maven 座標の形式は groupId:artifactId:versionです。たとえば、 com.databricks:spark-avro_2.10:1.0.0.

    • 正確な座標がわからない場合は、ライブラリ名を入力して [ パッケージを検索] をクリックします。 一致するパッケージのリストが表示されます。 パッケージの詳細を表示するには、その名前をクリックします。 パッケージは、名前、組織、および評価で並べ替えることができます。 検索バーにクエリーを入力して結果をフィルタリングすることもできます。 結果は自動的に更新されます。

      1. 左上のドロップダウン リストで [Maven Central または Spark パッケージ ] を選択します。

      2. 必要に応じて、[リリース] 列でパッケージのバージョンを選択します。

      3. パッケージの横にある [+ 選択] をクリックします。 [座標] フィールドに、選択したパッケージとバージョンが入力されます。

  3. (オプション)「リポジトリー」フィールドに、Maven リポジトリー URL を入力できます。

    内部 Maven リポジトリはサポートされていません。

  4. [除外] フィールドに、必要に応じて、除外する依存関係の groupIdartifactId を指定します ( log4j:log4jなど)。

    Maven はルートに最も近いバージョンを使用します。2 つのパッケージが異なる依存関係を持つバージョンを競合している場合、順序が重要になるため、古い依存関係を持つパッケージが最初に読み込まれると失敗する可能性があります。

    この問題を回避するには、 「除外」フィールドを使用して競合するライブラリを除外します。

  5. インストール」をクリックします。

CRAN パッケージ

  1. [ ライブラリ ソース ] ボタンの一覧で、[ CRAN] を選択します。

  2. [パッケージ] フィールドに、パッケージの名前を入力します。

  3. (オプション)リポジトリ フィールドに、CRAN リポジトリ URL を入力できます。

  4. インストール」をクリックします。

CRAN ミラーは、ライブラリの最新バージョンを提供します。 その結果、ライブラリを異なるタイミングで異なるクラスターにアタッチすると、異なるバージョンの R パッケージが作成される可能性があります。 Databricks で R パッケージのバージョンを管理および修正する方法については、 ナレッジ ベースを参照してください。