Databricks タスクの構成と編集
この記事では、 ワークフロー ワークスペース UI を使用してタスクを作成、構成、編集する手順に焦点を当てています。
Databricks は、タスクを Databricks ジョブのコンポーネントとして管理します。 ジョブには 1 つ以上のタスクがあります。 ワークスペース UI で新しいジョブを作成するには、最初のタスクを構成します。 新しいジョブを構成するには、「 Databricks ジョブの構成と編集」を参照してください。
各タスクには、タスク ロジックを実行するコンピュート リソースが関連付けられています。 「ジョブのコンピュートの設定」を参照してください。
Databricks には、次のようなタスク構成のための他のエントリ ポイントとツールがあります。
タスクを作成または構成する
ワークスペースUIを使用して既存のタスクを編集したり、新しいタスクを追加したりするには、次の手順を使用して既存のジョブを選択します。
サイドバーの[ワークフロー]をクリックします。
「名前」列で、ジョブ名をクリックします。
「タスク」タブをクリックします。タスクグラフが表示されます。
タスクを編集するには、タスク名をクリックします。 タスク設定は、タスクグラフの下に表示されます。
タスクを追加するには、 をクリックします 。
タスクをクローンする
クローンタスクは、アップストリームの依存関係を含む、既存のタスクのすべての設定をコピーします。
タスクをクローンするには、次の操作を行います。
タスクグラフでタスクを選択します。
をクリックします 。
クローンタスクの名前を指定し、[クローン]をクリックします。
タスクパスをコピーする
ノートブックタスクなどの特定のタスクタイプでは、タスクソースコードへのパスをコピーできます。
「タスク」タブをクリックします。
コピーするパスを含むタスクを選択します。
タスクパスの横にある をクリックして 、パスをクリップボードにコピーします。
タスクの詳細設定
次の詳細設定は、失敗したタスクの再試行と、応答しないタスクのタイムアウトポリシーを制御します。
注:
通知は、タスクレベルまたはジョブレベルで設定できます。 「ジョブに通知を追加する」を参照してください。
再試行ポリシーを設定する
タスクの再試行のデフォルト設定は、ジョブの構成によって異なります。 ほとんどの構成では、デフォルト設定では、タスクの失敗時にタスクを再試行しません。
連続ジョブでは、指数バックオフ再試行ポリシーが使用されます。 「連続ジョブの障害はどのように処理されますか?」を参照してください。
失敗したタスクの実行を再試行するタイミングと回数を決定するポリシーを設定するには、[再試行] の横にある [+ 追加] をクリックします。
再試行間隔は、失敗した実行の開始とその後の再試行実行との間のミリ秒単位で計算されます。
注:
タイムアウトと再試行の両方を設定すると、タイムアウトは各再試行に適用されます。
タスクの実行期間またはストリーミング バックログ メトリクスのしきい値を構成する
プレビュー
Databricks ジョブのストリーミング可観測性は パブリック プレビュー段階です。
タスクの実行時間またはストリーミング バックログのメトリクスにオプションのしきい値を構成できます。 duration thresholds または streaming メトリクス thresholds を設定するには、タスク設定パネルで [メトリクス thresholds ] をクリックします。
タスクの予想完了時間と最大完了時間など、タスクの期間のしきい値を設定するには、メトリクス ドロップダウン メニューで [実行期間] を選択します。「警告」フィールドに期間を入力して、タスクの予想完了時間を設定します。タスクの実行がこのしきい値を超えると、イベントがトリガーされます。 タスクの最大完了時間を設定するには、[ タイムアウト ] フィールドに最大時間を入力します。 この時間内にタスクが完了しない場合、Databricks はそのステータスを「タイムアウト」に設定します。
ストリーミング バックログ メトリクスのしきい値を設定するには、 メトリクス ドロップダウン メニューでメトリクスを選択し、しきい値の値を入力します。 ストリーミング ソースでサポートされている特定のメトリクスについては、「 ストリーミング タスクのメトリクスを表示する」を参照してください。
「警告」フィールドに期間を入力して、タスクの予想完了時間を設定します。タスクがこのしきい値を超えると、イベントがトリガーされます。 このイベントを使用して、タスクの実行が遅いときに通知できます。 「低速ジョブの通知を構成する」を参照してください。
タスクの最大完了時間を設定するには、[ タイムアウト ] フィールドに最大時間を入力します。 この時間内にタスクが完了しない場合、Databricks はそのステータスを「タイムアウト」に設定します。
しきい値を超えたためにイベントがトリガーされた場合は、イベントを使用して通知を送信できます。 「低速ジョブの通知を構成する」を参照してください。