たくさんの小さなSparkジョブ

小さなジョブが多数表示される場合は、比較的小さなデータ (<10 GB) に対して多くの操作を実行している可能性があります。 小さな操作はそれぞれ数秒しかかかりませんが、それらは積み重なり、操作ごとのオーバーヘッドに費やされる時間も加算されます。

小さなジョブを高速化する最善の方法は、複数の操作を並行して実行することです。 Delta Live Tables はこれを自動的に実行します。

その他のオプションは次のとおりです。

  • マルチタスク ジョブを使用して、操作を複数のノートブックに分割し、同じクラスター上で並列に実行します。

  • クエリを並列に実行するには、Python のThreadPoolExecutorまたは別のマルチスレッド アプローチを使用します。

  • すべてのクエリが で記述されている場合は 、 SQL ウェアハウスSQL を使用します。SQL ウェアハウスは、このタイプのワークロード向けに設計されているため、多数のクエリを並列実行しても非常に適切にスケーリングされます。