Sparkがデータを書き換えているかどうかを判断する方法
まず、書き込みステージの SQL DAG を開きます。 ジョブのページの上部までスクロールし、関連付けられた SQL クエリをクリックします。
これで DAG が表示されます。 そうでない場合は、少しスクロールすると表示されます。
削除操作または更新操作を実行する場合は、ライターによって書き込まれるデータの量と予想される量を確認します。 予想よりも多くのデータが書き込まれている場合は、データを書き換えている可能性があります。
マージを実行している場合、マージノードには、書き換えているデータの量に関する明示的な統計があります。