ジョブのPythonスクリプトタスク
Python スクリプト タスクを使用して、Python ファイルを実行します。
Python スクリプト タスクの構成
開始する前に、ジョブを構成するユーザーがアクセスできる場所に Python スクリプトをアップロードする必要があります。 Databricks では、Python スクリプトにワークスペース ファイルを使用することをお勧めします。 「ワークスペースファイルとは」を参照してください。
注:
ジョブ UI には、他の構成済み設定に基づいてオプションが動的に表示されます。
Databricks では、ルートやマウントを使用してコードやデータを格納しない DBFSことをお勧めします。 代わりに、Python スクリプトをワークスペース ファイルまたはボリュームに移行したり、URI を使用してクラウド オブジェクト ストレージにアクセスしたりできます。
フローを開始して Python script
タスクを設定するには:
ジョブUIの 「タスク 」タブに移動します。
「タイプ」ドロップダウンメニューで、「
Python script
」を選択します。
ソースを構成する
[ ソース ] ドロップダウン メニューで、次のいずれかのオプションを使用して Python スクリプトの場所を選択します。
ワークスペース
ワークスペース ファイルを使用して格納された スクリプトを構成するには、 Pythonワークスペース を使用します。
[パス] フィールドをクリックします。[Python ファイルの選択] ダイアログが表示されます。
Python スクリプトを参照し、ファイルをクリックしてハイライト表示し、[ 確認] をクリックします。
注:
このオプションを使用して、Databricks Git フォルダーに格納されている Python スクリプトでタスクを構成できます。 Databricks では、 Git プロバイダー オプションとリモート Git リポジトリを使用して、ジョブでスケジュールされたアセットをバージョン管理することをお勧めします。
DBFS/GCSの
DBFSGCS/Python を使用して、ボリューム、クラウド オブジェクトのストレージの場所、またはDBFS ルートに格納されている スクリプトを構成します。
Databricks では、Python スクリプトを Unity Catalog ボリュームまたはクラウド オブジェクト ストレージに格納することをお勧めします。
[パス] フィールドに、Python スクリプトの URI を入力します。たとえば、 /Volumes/path/to/script.py
や gs://bucket-name/path/to/script.py
などです。
Git プロバイダー
Git プロバイダーを使用して、リモート Git リポジトリに格納されている Python スクリプトを構成します。
UI に表示されるオプションは、他の場所で Git プロバイダーを既に構成しているかどうかによって異なります。 1 つのジョブ内のすべてのタスクに使用できるリモート Git リポジトリは 1 つだけです。 「ジョブでの Git の使用」を参照してください。
[パス] フィールドは、git 参照を設定した後に表示されます。
Python スクリプトの相対パス ( etl/bronze/ingest.py
など) を入力します。
重要
相対パスを入力するときは、 /
や ./
で始めないでください。 たとえば、アクセスする Python コードの絶対パスが /etl/bronze/ingest.py
の場合、[パス] フィールドに「etl/bronze/ingest.py
」と入力します。
コンピュートライブラリと依存ライブラリの構成
コンピュートを使用して、スクリプト内のロジックをサポートするクラスターを選択または構成します。
[依存ライブラリ] の下の [+ 追加] をクリックします。「依存ライブラリの追加」ダイアログが表示されます。
既存のライブラリを選択するか、新しいライブラリをアップロードできます。
コンピュートの設定でサポートされている場所に保存されたライブラリのみを使用できます。 Python ライブラリのサポートを参照してください。
各 ライブラリ ソース には、ライブラリを選択またはアップロードするための異なるフローがあります。 「ライブラリ」を参照してください。
ジョブ構成の最終処理
(オプション) パラメーター CLIPythonは、 スクリプトに 引数として渡される文字列のリストとして構成します。Configure タスク パラメーターを参照してください。
[タスクの保存] をクリックします。