プール構成リファレンス

この記事では、UI を使用してプールを作成するときに使用できる設定について説明します。 Databricks CLI を使用してプールを作成する方法については、「 Databricks CLI コマンド」を参照してください。 REST APIを使用してプールを作成する方法については、インスタンスプールAPIを参照してください。

プールサイズ

プールを作成するときに、そのサイズを制御するために、最小のアイドルインスタンスと最大容量を設定できます。プール内のアイドルインスタンスの自動終了はサポートされていません。

最小アイドルインスタンス数(Minimum Idle Instances)

プールがアイドル状態を維持するインスタンスの最小数。これらのインスタンスは、自動終了の設定に関係なく終了しません。クラスターがプールからアイドル状態のインスタンスを使用する場合、Databricks は最小数を維持するために追加のインスタンスをプロビジョニングします。

インスタンスタイプ

プールは、新しいクラスターの準備ができているアイドル状態のインスタンスと、稼働中のクラスターで使用されているインスタンスの両方で構成されます。これらのインスタンスはすべて、プールの作成時に選択された同じインスタンスプロバイダータイプです。

プールのインスタンスタイプは編集できません。プールにアタッチされたクラスターは、ドライバーノードとワーカーノードに同じインスタンスタイプを使用します。インスタンスタイプの異なるファミリーは、メモリ集中型ワークロードやコンピュート集中型ワークロードなど、さまざまなユースケースに適合します。

Databricks では、インスタンスの種類のサポートを停止する前に、常に 1 年前に非推奨の通知が提供されます。

プリロードされた Databricks Runtime のバージョン

プール内のアイドル状態のインスタンスに読み込まれる Databricks Runtime バージョンを選択することで、クラスターの起動を高速化できます。ユーザーがプールによってサポートされるクラスターを作成するときにそのランタイムを選択した場合、そのクラスターは、事前に読み込まれた Databricks Runtime バージョンを使用しないプールベースのクラスターよりもさらに迅速に起動されます。

このオプションを [なし ] に設定すると、Databricks Runtime バージョンがプール内のアイドル状態のインスタンスにオンデマンドでダウンロードされるため、クラスターの起動が遅くなります。クラスターがプール内のインスタンスを解放すると、Databricks Runtime バージョンはそれらのインスタンスにキャッシュされたままになります。同じ Databricks Runtime バージョンを使用する次のクラスター作成操作では、このキャッシュ動作の恩恵を受ける可能性がありますが、保証されません。

プールタグ

プールタグを使用すると、組織内のさまざまなグループによって使用されるクラウドリソースのコストを監視できます。

アカウントコンソールのDatabricks課金利用グラフでは、個々のタグごとに使用状況を集計できます。同じページからダウンロードした課金利用CSVレポートには、デフォルトとカスタムタグも含まれます。タグはGKE および GCE ラベルにも伝播します。

便宜上、Databricks では、 Vendor、 DatabricksInstancePoolId、 DatabricksInstancePoolCreatorIdの 3 つのデフォルトタグが各プールに適用されます。プールの作成時にカスタムタグを追加することもできます。最大 43 個のカスタムタグを追加できます。

カスタムタグ

プールにタグを追加するには、[プールの作成] ページの下部にある [タブ] タブに移動します。[ + 追加 ] ボタンをクリックし、キーと値のペアを入力します。

プール-バッキングクラスタリングは、プール構成からデフォルトタグとカスタムタグを継承します。プールタグとクラスタータグの連携の詳細については、「タグを使用した属性の使用」を参照してください。

可用性ゾーンを構成する

プールの可用性ゾーンは、インスタンスプール API を使用してプールを作成するときに構成できます。これはオプションのフィールドです。指定しない場合、プールはデフォルトゾーンを使用します。

プールを起動した後は、プールの可用性ゾーンを更新することはできません。プールで別の可用性ゾーンを使用する場合は、新しいプールを作成する必要があります。

アベイラビリティーゾーンを設定するには、gcp_attributes オブジェクトに zone_id 属性を追加します。例えば：

"gcp_attributes": {
    "zone_id": "us-central1-a"
}

注：

提供される可用性ゾーンは、Databricks ワークスペースと同じリージョンに存在する必要があります。

競合するゾーン構成

インスタンスプールにアタッチするコンピュートリソースが、インスタンスプールとは異なるアベイラビリティーゾーンを使用するように設定されている場合、コンピュートリソースの設定は無視され、インスタンスプールのゾーン設定が継承されます。

コンピュートリソースのドライバーは、ドライバーインスタンスプールからゾーンまたはマルチゾーンの設定を継承し、エグゼキューターは、エグゼキューターインスタンスプールからゾーンまたはマルチゾーンの設定を継承します。