プール構成リファレンス
この記事では、UI を使用してプールを作成するときに使用できる設定について説明します。 Databricks CLI を使用してプールを作成する方法については、 「インスタンス プール CLI (レガシー)」を参照してください。 REST API を使用してプールを作成する方法については、 「インスタンス プール API」を参照してください。
プールサイズと自動終了
プールを作成するときに、そのサイズを制御するために、最小アイドル インスタンス、最大容量、アイドル インスタンスの自動終了の 3 つのパラメーターを設定できます。
最小アイドル インスタンス数(Minimum Idle Instances)
プールがアイドル状態を維持するインスタンスの最小数。 これらのインスタンスは、自動終了の設定に関係なく終了しません。 クラスターがプールからアイドル状態のインスタンスを使用する場合、Databricks は最小数を維持するために追加のインスタンスをプロビジョニングします。
最大容量
プールがプロビジョニングできるインスタンスの最大数。 設定すると、この値は すべてのインスタンス (アイドル + 使用済み)を制約します。 プールを使用するクラスターが オートスケール中にこの数よりも多くのインスタンスを要求した場合、要求は INSTANCE_POOL_MAX_CAPACITY_FAILURE
エラーで失敗します。
この構成は オプションです。 Databricks では、次の状況でのみ値を設定することをお勧めします。
インスタンスクォータを下回っ たままにする必要がある 。
1 つの作業セットが別の作業セットに影響を与えないように保護する必要があります。 たとえば、インスタンスクォータが 100 で、ジョブを実行する必要があるチーム A と B があるとします。 最大 50 のプール A と最大 50 のプール B を作成して、2 つのチームが 100 のクォータを公平に分担できます。
コストに上限を設ける必要があります。
インスタンスタイプ
プールは、新しいクラスターの準備ができているアイドル状態のインスタンスと、稼働中のクラスターで使用されているインスタンスの両方で構成されます。 これらのインスタンスはすべて、プールの作成時に選択された同じインスタンス プロバイダー タイプです。
プールのインスタンスタイプは編集できません。 プールにアタッチされたクラスターは、ドライバーノードとワーカーノードに同じインスタンスタイプを使用します。 インスタンスタイプの異なるファミリーは、メモリ集中型ワークロードやコンピュート集中型ワークロードなど、さまざまなユースケースに適合します。
Databricks では、インスタンスの種類のサポートを停止する前に、常に 1 年前に非推奨の通知が提供されます。
プリロードされた Databricks Runtime のバージョン
プール内のアイドル状態のインスタンスに読み込まれる Databricks Runtime バージョンを選択することで、クラスターの起動を高速化できます。 ユーザーがプールによってサポートされるクラスターを作成するときにそのランタイムを選択した場合、そのクラスターは、事前に読み込まれた Databricks Runtime バージョンを使用しないプールベースのクラスターよりもさらに迅速に起動されます。
このオプションを [なし ] に設定すると、Databricks Runtime バージョンがプール内のアイドル状態のインスタンスにオンデマンドでダウンロードされるため、クラスターの起動が遅くなります。 クラスターがプール内のインスタンスを解放すると、Databricks Runtime バージョンはそれらのインスタンスにキャッシュされたままになります。 同じ Databricks Runtime バージョンを使用する次のクラスター作成操作では、このキャッシュ動作の恩恵を受ける可能性がありますが、保証されません。
プール タグ
プールタグを使用すると、組織内のさまざまなグループによって使用されるクラウドリソースのコストを監視できます。
アカウント コンソールの Databricks 課金利用グラフ では、個々のタグごとに使用状況を集計できます。 同じページからダウンロードされた課金利用CSVレポートには、デフォルトタグとカスタムタグも含まれます。 タグ は GKE ラベルと GCE ラベルにも反映されます。
便宜上、Databricks では、 Vendor
、 DatabricksInstancePoolId
、 DatabricksInstancePoolCreatorId
の 3 つのデフォルト タグが各プールに適用されます。 プールの作成時にカスタムタグを追加することもできます。 最大 43 個のカスタム タグを追加できます。
カスタムタグ
プールにタグを追加するには、[プールの作成] ページの下部にある [タブ] タブに移動します。[ + 追加 ] ボタンをクリックし、キーと値のペアを入力します。
プールバッククラスターは、プール構成からデフォルトタグとカスタムタグを継承します。 プール タグとクラスター タグがどのように連携するかに関する詳細については、 「タグを使用した使用状況の監視」を参照してください。
可用性ゾーンを構成する
プールの可用性ゾーンは、 インスタンス プール API を使用してプールを作成するときに構成できます。 これはオプションのフィールドです。 指定しない場合、プールはデフォルトゾーンを使用します。
アベイラビリティーゾーンを設定するには、gcp_attributes
オブジェクトに zone_id
属性を追加します。例えば:
"gcp_attributes": {
"zone_id": "us-central1-a"
}
注:
提供される可用性ゾーンは、Databricks ワークスペースと同じリージョンに存在する必要があります。