拡張オートスケールをDelta Live Tables Pipeline のクラスター使用率を最適化
Databricks Enhanced オートスケールは、パイプラインのデータ処理待機時間への影響を最小限に抑えながら、ワークロードの量に基づいてクラスター リソースを自動的に割り当てることで、クラスターの使用率を最適化します。
拡張オートスケールでは、Databricks クラスターのオートスケール 機能が次の機能で改善されています。
拡張オートスケールは、ストリーミング・ワークロードの最適化を実装し、バッチ・ワークロードのパフォーマンスを向上させるための機能拡張を追加します。 拡張オートスケールは、ワークロードの変化に応じてマシンを追加または削除することで、コストを最適化します。
Enhanced オートスケールは、使用率の低いノードをプロアクティブにシャットダウンすると同時に、シャットダウン中にタスクが失敗しないようにします。 既存のクラスターオートスケール機能は、ノードがアイドル状態の場合にのみノードをスケールダウンします。
拡張オートスケールは、 Delta Live Tables UI で新しいパイプラインを作成するときの既定のオートスケール モードです。 既存のパイプラインに対して拡張オートスケールを有効にするには、UI でパイプライン設定を編集します。 Delta Live Tables API を使用してパイプラインを作成または編集するときに、拡張オートスケールを有効にすることもできます。
拡張オートスケールを有効にする
拡張オートスケールを使用するには、次のいずれかの操作を行います。
Delta Live Tables UI でパイプラインを作成するか、パイプラインを編集するときに、 クラスターモード を 拡張オートスケール に設定します。
パイプライン クラスター構成に
autoscale
設定を追加し、mode
フィールドをENHANCED
に設定します。 コンピュートの設定を参照してください。
本番運用パイプラインの拡張オートスケールを構成する場合は、次のガイドラインに従います。
Min workers
設定はデフォルトのままにしておきます。Max workers
設定を、予算とパイプラインの優先度に基づいた値に設定します。
次の例では、最小 5 ワーカー、最大 10 ワーカーの拡張オートスケール クラスターを構成します。 max_workers
は min_workers
以上である必要があります。
注
拡張オートスケールは、
updates
クラスターでのみ使用できます。 既存のオートスケール機能は、maintenance
クラスターに使用されます。autoscale
構成には、次の 2 つのモードがあります。LEGACY
: cluster オートスケールを使用します。ENHANCED
: 拡張オートスケールを使用します。
{
"clusters": [
{
"autoscale": {
"min_workers": 5,
"max_workers": 10,
"mode": "ENHANCED"
}
}
]
}
パイプラインが連続実行用に構成されている場合、オートスケール構成が変更された後、パイプラインは自動的に再起動されます。 再起動後、短時間の待機時間の増加が予想されます。 この短い期間のレイテンシーの増加の後、 autoscale
設定に基づいてクラスターサイズを更新し、パイプラインレイテンシーを以前のレイテンシー特性に戻す必要があります。
モニタリング 拡張オートスケール対応パイプライン
Delta Live テーブルユーザーインターフェイスのイベントログを使用して、拡張オートスケール メトリクスを監視することができます。 拡張オートスケール・イベントには、 autoscale
イベント・タイプがあります。 イベントの例を次に示します。
出来事 |
メッセージ |
---|---|
クラスターのサイズ変更要求が開始されました |
|
クラスターのサイズ変更要求に成功しました |
|
クラスターのサイズ変更要求が部分的に成功しました |
|
クラスターのサイズ変更要求に失敗しました |
|
拡張オートスケール イベントを表示するには、 イベント ログを直接照会することもできます。
クエリーバックログメトリクスのイベント ログについては、「 イベント ログを使用してデータ バックログを監視する」を参照してください。
拡張オートスケール操作中にクラスターのサイズ変更要求と応答を監視するには、「イベント ログからの拡張オートスケールイベントの監視」を参照してください。