Spark Submit (レガシー)

Spark Submit タスクタイプは、JAR をタスクとして構成するための従来のパターンです。Databricks では、 JAR タスクの使用をお勧めします。ジョブの JAR タスクを参照してください。

要件

Spark-Submitタスクは、新しいクラスターでのみ実行できます。
JAR ファイルは、コンピュート構成と互換性のある場所またはMavenリポジトリにアップロードする必要があります。Java と Scala のライブラリのサポートを参照してください。
ボリュームに格納された JAR ファイルにはアクセスできません。
Spark-submit はクラスターオートスケールをサポートしていません。オートスケールの詳細については、「クラスターオートスケール」を参照してください。
Spark-submit は、 Databricks ユーティリティ (dbutils) リファレンスをサポートしていません。 Databricks ユーティリティを使用するには、代わりに JAR タスクを使用します。
Unity Catalog 対応クラスターを使用する場合、spark-submit は、クラスターがシングルユーザーアクセスモードを使用している場合にのみサポートされます。共有アクセスモードはサポートされていません。「アクセスモード」を参照してください。
構造化ストリーミングジョブの最大並列実行を 1 より大きい値に設定しないでください。ストリーミングジョブは、cron 式 "* * * * * ?" (毎分) を使用して実行するように設定する必要があります。ストリーミングタスクは継続的に実行されるため、常にジョブの最後のタスクにする必要があります。

Spark 送信タスクを構成する

ジョブ UI のタスク タブからSpark Submitタスクを追加するには、次の手順を実行します。

「タイプ」ドロップダウンメニューで、「Spark Submit」を選択します。
コンピュートを使用して、タスクのロジックをサポートするクラスターを構成します。
パラメーター テキストボックスを使用して、タスクの実行に必要なすべての引数と構成をJSON形式の文字列の配列として指定します。
- 最初の 3 つの引数は、次の例のように、指定されたパスの JAR で実行するメイン・クラスを識別するために使用されます。
```
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
```
- Databricks によって構成された master、 deploy-mode、 executor-cores の設定を上書きすることはできません
- --jars と --py-files を使用して、依存する Java、Scala、Python ライブラリを追加します。
- --confを使用して Spark 構成を設定します。
- --jars、 --py-files、 --files 引数は DBFS パスをサポートします。
- デフォルトでは、 Spark submit ジョブは、 Databricks サービス用に予約されたメモリを除く、使用可能なすべてのメモリを使用します。 --driver-memoryと --executor-memory を小さい値に設定して、オフヒープ使用の余地を残すことができます。
[タスクの保存] をクリックします。