たくさんの小さなSparkジョブ
小さなジョブが多数表示される場合は、比較的小さなデータ (<10 GB) に対して多くの操作を実行している可能性があります。 小さな操作はそれぞれ数秒しかかかりませんが、それらは積み重なり、操作ごとのオーバーヘッドに費やされる時間も加算されます。
小さなジョブを高速化する最善の方法は、複数の操作を並行して実行することです。 Delta Live Tables はこれを自動的に実行します。
その他のオプションは次のとおりです。
マルチタスク ジョブを使用して、操作を複数のノートブックに分割し、同じクラスター上で並列に実行します。
すべてのクエリが で記述されている場合は 、 SQL ウェアハウスSQL を使用します。SQL ウェアハウスは、このタイプのワークロード向けに設計されているため、多数のクエリを並列実行しても非常に適切にスケーリングされます。
ノートブックをパラメータ化し、for each タスクを使用してノートブックを複数回並列に実行します。並列化のレベルを設定するには、 コンカレンシー を使用します。 これは 、サーバレス コンピュートとうまく連携します。