オブジェクトストレージからのライブラリのインストール

この記事では、Databricks のクラウドオブジェクトストレージからライブラリをインストールするために必要な手順について説明します。

この記事では、クラウド オブジェクト ストレージを一般的な概念として説明し、URI を使用してオブジェクト ストレージに保存されているデータと直接やり取りすることを前提としています。 Databricks 、クラウド オブジェクト ストレージ内のファイルへのアクセスを構成するためにUnity Catalogボリュームを使用することをお勧めします。 Unity Catalogボリュームとは何ですか?」を参照してください。

カスタム JAR および Python Whl ライブラリは、DBFS ルートに保存する代わりに、クラウドオブジェクトストレージに保存できます。 ライブラリの完全な互換性の詳細については、クラスター スコープのライブラリを参照してください。

重要

ライブラリは、Databricks Runtime 14.3 LTS 以前を使用している場合は DBFS からインストールできます。 ただし、ワークスペース ユーザーは誰でも DBFS に格納されているライブラリ ファイルを変更できます。 Databricksワークスペースでのライブラリのセキュリティを向上させるために、DBFSルートへのライブラリファイルの保存は、Databricks Runtime 15.1 以降のデフォルトによって非推奨になり、無効になっています。「DBFSルートでのライブラリの保存は、デフォルトによって非推奨および無効化されています」を参照してください。

代わりに、 、 Databricksライブラリ、PythonJAR ファイル、Spark コネクタを含むすべてのライブラリをワークスペース ファイルまたはUnity Catalog ボリュームにアップロードするか、ライブラリ パッケージ リポジトリを使用すること をお勧めします 。ワークロードがこれらのパターンをサポートしていない場合は、クラウドオブジェクトストレージに保存されているライブラリを使用することもできます。

オブジェクトストレージへのライブラリのロード

ライブラリは、他のファイルをロードするのと同じ方法でオブジェクトストレージにロードできます。 クラウド・プロバイダで、新しいオブジェクト・ストレージ・コンテナを作成したり、クラウド・オブジェクト・ストレージにファイルをロードしたりするには、適切な権限が必要です。

オブジェクトストレージへの読み取り専用権限の付与

Databricks では、ライブラリのインストールに関連するすべての特権を読み取り専用アクセス許可で構成することをお勧めします。

Databricks を使用すると、クラウドオブジェクトストレージ内のデータへのアクセスを制御する個々のクラスターにセキュリティ アクセス許可を割り当てることができます。 これらのポリシーを拡張して、ライブラリを含むクラウドオブジェクトストレージへの読み取り専用アクセスを追加できます。

Databricks Runtime 12.2 LTS 以前では、共有アクセス モードのクラスターを使用する場合、JAR ライブラリを読み込むことはできません。 Databricks Runtime 13.3 LTS以降では、 JARライブラリ をUnity Catalog許可リストに追加する必要があります。 共有コンピュートの Allowlist ライブラリ と init スクリプトを参照してください。

Databricks では、GCS に保存されているライブラリへのアクセスを管理するために、Google クラウド サービス アカウントを使用することを推奨しています。 目的のバケットの Storage Object Viewer ロールを持つGoogleクラウドサービスアカウントを作成し、クラスターにアタッチします。 クラスターで Google クラウドのサービスアカウントを使用して GCS バケットにアクセスする を参照してください。

クラスターへのライブラリのインストール

クラウド・オブジェクト・ストレージに保管されているライブラリーをクラスターにインストールするには、以下のステップを実行します。

  1. クラスター UI のリストからクラスターを選択します。

  2. [ライブラリ] タブを選択します。

  3. [ファイル パス/GCS] オプションを選択します。

  4. ライブラリ オブジェクトへの完全な URI パスを指定します ( gs://bucket-name/path/to/library.whlなど)。

  5. インストール」をクリックします。

REST API または CLI を使用してライブラリをインストールすることもできます。

ノートブックへのライブラリのインストール

%pipPython wheelを使用すると、ノートブックで分離された をスコープとするオブジェクト ストレージに保存されているカスタムSparkSession ファイルをインストールできます。この方法を使用するには、パブリックに読み取り可能なオブジェクト ストレージにライブラリを保存するか、署名済みの URL を使用する必要があります。

ノートブック スコープの Python ライブラリに関するページを参照してください。

JAR ライブラリはノートブックにインストールできません。 JAR ライブラリをクラスター レベルでインストールする必要があります。