スキューとスピル
スピル
長期にわたる段階で最初に探すのは、 スピルがあるかどうかです。
ステージのページの上部には、スピルに関する統計を含む詳細が表示されます。
スピルは、 Spark実行時のメモリが不足しているときに発生します。 メモリからディスクにデータを移動し始めますが、これは非常にコストがかかる可能性があります。 これは、データシャッフル中に最も一般的です。
スピルの統計が表示されない場合は、ステージにスピルがないことを意味します。 ステージにこぼれがある場合は、シャッフルによるスピルへの対処方法に関する このガイド を参照してください。
スキュー
次に調べたいのは、 スキューがあるかどうかです。 スキューとは、1 つまたは少数のタスクが他のタスクよりも大幅に長い時間がかかることです。 その結果、クラスターの使用率が低下し、ジョブの実行時間が長くなります。
「概要メトリック」まで下にスクロールします。 私たちが探している主なことは、 最大 期間が75パーセンタイルの期間よりもはるかに高いことです。 以下のスクリーンショットは、75パーセンタイルと 最大値が 同じ正常なステージを示しています。
最大期間が75パーセンタイルより50%長い場合は、スキューが発生している可能性があります。
スキューが見られる場合は、スキューの修正方法についてこちらで確認してください。
スキューやスピルがない
スキューやスピルが見られない場合は、ジョブ ページに戻って、何が起こっているかの概要を確認してください。 ページの一番上までスクロールし、 「関連付けられたジョブ ID」をクリックします。
ステージにスピルやスキューがない場合は、次のステップのSparkステージ高 I/Oを参照してください。