プール構成リファレンス

この記事では、UI を使用してプールを作成するときに使用できる設定について説明します。 Databricks CLI を使用してプールを作成する方法については、「 Databricks CLI コマンド」を参照してください。 REST APIを使用してプールを作成する方法については、インスタンスプールAPIを参照してください。

プールサイズ

プールを作成するときに、そのサイズを制御するために、最小のアイドル インスタンスと最大容量を設定できます。 プール内のアイドル インスタンスの自動終了はサポートされていません。

最小アイドル インスタンス数(Minimum Idle Instances)

プールがアイドル状態を維持するインスタンスの最小数。 これらのインスタンスは、自動終了の設定に関係なく終了しません。 クラスターがプールからアイドル状態のインスタンスを使用する場合、Databricks は最小数を維持するために追加のインスタンスをプロビジョニングします。

インスタンスタイプ

プールは、新しいクラスターの準備ができているアイドル状態のインスタンスと、稼働中のクラスターで使用されているインスタンスの両方で構成されます。 これらのインスタンスはすべて、プールの作成時に選択された同じインスタンス プロバイダー タイプです。

プールのインスタンスタイプは編集できません。 プールにアタッチされたクラスターは、ドライバーノードとワーカーノードに同じインスタンスタイプを使用します。 インスタンスタイプの異なるファミリーは、メモリ集中型ワークロードやコンピュート集中型ワークロードなど、さまざまなユースケースに適合します。

Databricks では、インスタンスの種類のサポートを停止する前に、常に 1 年前に非推奨の通知が提供されます。

プリロードされた Databricks Runtime のバージョン

プール内のアイドル状態のインスタンスに読み込まれる Databricks Runtime バージョンを選択することで、クラスターの起動を高速化できます。 ユーザーがプールによってサポートされるクラスターを作成するときにそのランタイムを選択した場合、そのクラスターは、事前に読み込まれた Databricks Runtime バージョンを使用しないプールベースのクラスターよりもさらに迅速に起動されます。

このオプションを [なし ] に設定すると、Databricks Runtime バージョンがプール内のアイドル状態のインスタンスにオンデマンドでダウンロードされるため、クラスターの起動が遅くなります。 クラスターがプール内のインスタンスを解放すると、Databricks Runtime バージョンはそれらのインスタンスにキャッシュされたままになります。 同じ Databricks Runtime バージョンを使用する次のクラスター作成操作では、このキャッシュ動作の恩恵を受ける可能性がありますが、保証されません。

プール タグ

プールタグを使用すると、組織内のさまざまなグループによって使用されるクラウドリソースのコストを監視できます。

アカウント コンソールのDatabricks課金利用グラフでは、個々のタグごとに使用状況を集計できます。 同じページからダウンロードした課金利用CSVレポートには、デフォルトとカスタムタグも含まれます。 タグはGKE および GCE ラベルにも伝播します

便宜上、Databricks では、 VendorDatabricksInstancePoolIdDatabricksInstancePoolCreatorIdの 3 つのデフォルト タグが各プールに適用されます。 プールの作成時にカスタムタグを追加することもできます。 最大 43 個のカスタム タグを追加できます。

カスタムタグ

プールにタグを追加するには、[プールの作成] ページの下部にある [タブ] タブに移動します。[ + 追加 ] ボタンをクリックし、キーと値のペアを入力します。

プールベースのクラスターは、プール構成から デフォルト とカスタム タグを継承します。 プール タグとクラスタータグがどのように連携するかの詳細については、 「タグを使用した使用状況の監視」を参照してください。

可用性ゾーンを構成する

プールの可用性ゾーンは、 インスタンス プール API を使用してプールを作成するときに構成できます。 これはオプションのフィールドです。 指定しない場合、プールはデフォルトゾーンを使用します。

プールを起動した後は、プールの可用性ゾーンを更新することはできません。 プールで別の可用性ゾーンを使用する場合は、新しいプールを作成する必要があります。

アベイラビリティーゾーンを設定するには、gcp_attributes オブジェクトに zone_id 属性を追加します。例えば:

"gcp_attributes": {
    "zone_id": "us-central1-a"
}

注:

提供される可用性ゾーンは、Databricks ワークスペースと同じリージョンに存在する必要があります。

競合するゾーン構成

インスタンス プールにアタッチするコンピュート リソースが、インスタンス プールとは異なるアベイラビリティー ゾーンを使用するように設定されている場合、コンピュート リソースの設定は無視され、インスタンス プールのゾーン設定が継承されます。

コンピュート リソースのドライバーは、ドライバー インスタンス プールからゾーンまたはマルチゾーンの設定を継承し、エグゼキューターは、エグゼキューター インスタンス プールからゾーンまたはマルチゾーンの設定を継承します。