Databricks コンピュートをジョブで使用する

Databricks ジョブを実行すると、ジョブの一部として構成されたタスクが、タスクの種類に応じてクラスターまたは SQLウェアハウスのいずれかで Databricks コンピュートで実行されます。コンピュートのタイプと構成オプションの選択は、ジョブを運用可能にするときに重要です。この記事では、Databricks コンピュートリソースを使用してジョブを実行するためのガイドを提供します。

注：

シークレットは、クラスターの Spark ドライバーログstdoutおよびstderrストリームから編集されません。機密データを保護するために、デフォルトでは、Spark ドライバーのログは、ジョブ、シングルユーザーアクセスモード、および共有アクセスモードのクラスターに対する CAN MANAGE 権限を持つユーザーのみが表示できます。 CAN ATTACH TO または CAN RESTART 権限を持つユーザーがこれらのクラスターのログを表示できるようにするには、クラスター構成で次の Spark 構成プロパティを設定します: spark.databricks.acl.needAdminPermissionToViewLogs false 。

非分離共有アクセスモードクラスターでは、CAN ATTACH TO または CAN MANAGE 権限を持つユーザーが Spark ドライバーのログを表示できます。ログを読み取ることができるユーザーを CAN MANAGE 権限を持つユーザーのみに制限するには、 spark.databricks.acl.needAdminPermissionToViewLogs を trueに設定します。

クラスター構成に Spark プロパティを追加する方法については、「 Spark 構成」を参照してください。

共有ジョブクラスターを使用する

複数のタスクを調整するジョブでリソースの使用を最適化するには、共有ジョブクラスターを使用します。共有ジョブクラスターでは、同じジョブ実行内の複数のタスクでクラスターを再利用できます。 1 つのジョブクラスターを使用して、ジョブの一部であるすべてのタスクを実行することも、特定のワークロード用に最適化された複数のジョブクラスターを実行することもできます。共有ジョブクラスターを使用するには:

タスクを作成し、クラスター構成 を完了するときに [新しいジョブクラスター] を選択します。
ジョブにタスクを追加するときに新しいクラスターを選択するか、新しいジョブクラスターを作成します。 [新しいジョブクラスター] を選択したときに構成したクラスターは、ジョブ内のすべてのタスクで使用できます。

共有ジョブクラスターは単一のジョブ実行にスコープが設定されており、他のジョブまたは同じジョブの実行では使用できません。

ライブラリは、共有ジョブクラスター構成で宣言できません。依存ライブラリはタスク設定で追加する必要があります。

ジョブに適したクラスタータイプを選択する

新しいジョブクラスターは、ジョブまたはタスク実行専用のクラスターです。共有ジョブクラスターは、クラスターを使用する最初のタスクが開始されると作成および開始され、クラスターを使用する最後のタスクが完了した後に終了します。クラスターはアイドル状態のときは終了せず、すべてのタスクが完了した後にのみ終了します。共有ジョブクラスターが失敗するか、すべてのタスクが完了する前に終了した場合は、新しいクラスターが作成されます。単一のタスクにスコープ設定されたクラスターは、タスクの開始時に作成および開始され、タスクの完了時に終了します。本番運用では、各ジョブまたはタスクが完全に分離された環境で実行されるように、新しい共有またはタスクスコープのクラスターを使用することをDatabricks推奨しています。
新しいクラスターでタスクを実行すると、タスクはデータエンジニアリング (タスク) ワークロードとして扱われ、タスクワークロードの価格が適用されます。既存の All-Purposeクラスターでタスクを実行すると、そのタスクはデータアナリティクス (汎用) ワークロードとして扱われ、汎用ワークロードの料金が適用されます。
終了した既存のクラスターを選択し、ジョブ所有者にCan Restart アクセス許可がある場合、Databricks はジョブの実行がスケジュールされているときにクラスターを開始します。
既存の汎用クラスターは、ダッシュボードを定期的に更新するなどのタスクに最適です。

プールを使用してクラスターの起動時間を短縮する

新しいジョブクラスターの開始時刻を短縮するには、プールを作成し、そのプールを使用するようにジョブのクラスターを構成します。