オブジェクト・ストレージ からのライブラリのインストール

この記事では、Databricks のクラウド オブジェクト ストレージからライブラリをインストールするために必要な手順について説明します。

この記事では、一般的な概念としてクラウド・オブジェクト・ストレージを参照し、URIを使用してオブジェクト・ストレージに格納されたデータを直接操作することを前提としています。 Databricks では、Unity Catalog ボリュームを使用して、クラウド オブジェクト ストレージ内のファイルへのアクセスを構成することをお勧めします。 「ボリュームの作成と操作」を参照してください。

カスタム JAR および Python Whl ライブラリは、DBFS ルートに保存する代わりに、クラウド オブジェクト ストレージに保存できます。 ライブラリの完全な互換性の詳細については、クラスター スコープのライブラリを参照してください。

重要

Databricks Runtime 14.3 LTS 以下を使用する場合、ライブラリは DBFS からインストールできます。 ただし、ワークスペース ユーザーは、DBFS に格納されているライブラリ ファイルを変更できます。 Databricks ワークスペース内のライブラリのセキュリティを向上させるため、DBFS ルートへのライブラリ ファイルの保存は非推奨となり、Databricks Runtime 15.0 以降ではデフォルトで無効になっています。 「DBFS ルートへのライブラリの保存は非推奨であり、デフォルトで無効になっている」を参照してください。

代わりに、 、 Databricksライブラリ、PythonJAR ファイル、Spark コネクタを含むすべてのライブラリをワークスペース ファイルまたはUnity Catalog ボリュームにアップロードするか、ライブラリ パッケージ リポジトリを使用すること をお勧めします 。ワークロードがこれらのパターンをサポートしていない場合は、クラウド オブジェクト ストレージに保存されているライブラリを使用することもできます。

オブジェクトストレージ へのライブラリのロード

ライブラリは、他のファイルをロードするのと同じ方法でオブジェクトストレージにロードできます。 クラウド・プロバイダで、新しいオブジェクト・ストレージ・コンテナを作成したり、クラウド・オブジェクト・ストレージにファイルをロードしたりするには、適切な権限が必要です。

オブジェクト・ストレージ への読み取り専用権限の付与

Databricks では、ライブラリのインストールに関連するすべての特権を読み取り専用アクセス許可で構成することをお勧めします。

Databricks を使用すると、クラウド オブジェクト ストレージ内のデータへのアクセスを制御する個々のクラスターにセキュリティ アクセス許可を割り当てることができます。 これらのポリシーを拡張して、ライブラリを含むクラウドオブジェクトストレージへの読み取り専用アクセスを追加できます。

Databricks Runtime 12.2 LTS 以前では、共有アクセス モードのクラスターを使用する場合、JAR ライブラリを読み込むことはできません。 Databricks Runtime 13.3 LTS以降では、 JARライブラリ をUnity Catalog許可リストに追加する必要があります。 共有コンピュートの Allowlist ライブラリ と init スクリプトを参照してください。

Databricks では、GCS に保存されているライブラリへのアクセスを管理するために、Google クラウド サービス アカウントを使用することを推奨しています。 目的のバケットの Storage Object Viewer ロールを持つGoogleクラウドサービスアカウントを作成し、クラスターにアタッチします。 クラスターで Google クラウドのサービスアカウントを使用して GCS バケットにアクセスする を参照してください。

クラスター へのライブラリのインストール

クラウド・オブジェクト・ストレージに保管されているライブラリーをクラスターにインストールするには、以下のステップを実行します。

  1. クラスター UI のリストからクラスターを選択します。

  2. [ライブラリ] タブを選択します。

  3. [ファイル パス/GCS] オプションを選択します。

  4. ライブラリ オブジェクトへの完全な URI パスを指定します ( gs://bucket-name/path/to/library.whlなど)。

  5. インストール」をクリックします。

REST API または CLI を使用してライブラリをインストールすることもできます。

ノートブック へのライブラリのインストール

%pipPython wheelを使用すると、ノートブックで分離された をスコープとするオブジェクト ストレージに保存されているカスタムSparkSession ファイルをインストールできます。この方法を使用するには、パブリックに読み取り可能なオブジェクト ストレージにライブラリを保存するか、署名済みの URL を使用する必要があります。

ノートブック スコープの Python ライブラリに関するページを参照してください。

JAR ライブラリはノートブックにインストールできません。 JAR ライブラリをクラスター レベルでインストールする必要があります。