Visual Studio Code の Databricks 拡張機能とは何ですか?
Visual Studio Code 用の Databricks 拡張機能を使用すると、ローカル開発マシンで実行されている Visual Studio Code 統合開発環境 (IDE) から、リモートの Databricks ワークスペースに接続できます。 その後、次の操作を実行できます。
Databricks アセット バンドルを定義、デプロイ、実行して、Visual Studio Code UI を使用して CI/CD パターンとベスト プラクティスを Databricks ジョブ、Delta Live Tables パイプライン、MLOps スタックに適用します。 「Databricks Asset Bundles とは」および「Databricks Asset Bundles 拡張機能」を参照してください。
Visual Studio Code からローカル Python コード ファイルを、リモート ワークスペースの Databricks クラスターで実行します。 「クラスターで Python ファイルを実行する」を参照してください
ローカル Python コード ファイル (
.py
) と Python、R、Scala、SQL ノートブック (.py
、.ipynb
、.r
、.scala
、.sql
) を Visual Studio Code からリモート ワークスペースの Databricks ジョブとして実行します。 「Python ファイルをジョブとして実行する」を参照してください。デバッグ環境と Databricks Connect をセットアップして構成するには、選択ダイアログをトリガーする簡単なチェックリストを使用します。 Visual Studio Code の Databricks 拡張機能については、「Databricks Connect を使用したコードのデバッグ」を参照してください。
Databricks Connect を使用して、Visual Studio Code 内でノートブックをセルごとにデバッグします。 「Visual Studio Code の Databricks 拡張機能を使用して Databricks Connect でノートブック セルを実行およびデバッグする」を参照してください。
Visual Studio Code で開発したローカル コードを、リモート ワークスペースのコードと同期します。 「ワークスペース フォルダーを Databricks と同期する」を参照してください
注:
Visual Studio Code の Databricks 拡張機能では、自動化されたジョブとして R、Scala、および SQL ノートブックを実行できますが、Visual Studio Code 内でこれらの言語をより深くサポートすることはできません。
はじめに
Visual Studio Code の Databricks 拡張機能の使用を開始するには:
拡張機能をインストールします。
新しい Databricks プロジェクトを作成するか、既存の Visual Studio Code プロジェクトを変換します。
Databricks 拡張機能の UI を使用して、プロジェクトを簡単に構成できます。
拡張機能のチュートリアルの一部として、いくつかの Python コードを実行します。
Databricks Connect 統合を使用してコードをデバッグします。
pytest
を使用してコードをテストします。「Visual Studio Code の Databricks 拡張機能を使用して pytest でテストを実行する」を参照してください。
新しい Databricks プロジェクトを作成する
拡張機能をインストールしたら、Visual Studio Code の Databricks 拡張機能を使用して新しい Databricks プロジェクトを作成できます。
Visual Studio Code を起動します。
Visual Studio Code サイドバーの Databricks アイコンをクリックして、拡張機能を開きます。
[ 新しいプロジェクトを作成] をクリックします。
コマンド・パレットで、プロジェクトのホストと認証方法を選択します。「Visual Studio Code の Databricks 拡張機能の承認を設定する」を参照してください。
[ 新しいプロジェクトを配置するフォルダーへのパスを指定する] に、プロジェクトを作成するローカル開発コンピューター上のフォルダーへのパスを入力するか、[ フォルダー選択ダイアログを開く ] をクリックしてプロジェクト フォルダーへのパスを選択します。
[Databricks プロジェクトの初期化ビュー で使用するテンプレート ] で、上矢印と下矢印を使用してプロジェクト テンプレートを選択し、 Enter キーを押します。 バンドルプロジェクトテンプレートに関する情報については、「アセットバンドルプロジェクトテンプレートDatabricks」を参照してください。
このプロジェクト のプロジェクト名として [一意] 名 を入力するか、デフォルトのプロジェクト名である
my_project
のままにして 、Enter キーを押します。スタブ (サンプル) ノートブック、スタブ (サンプル) Delta Live Tables パイプライン、スタブ (サンプル) Python パッケージ、またはこれらのスタブ (サンプル) の任意の組み合わせをプロジェクトに追加するかどうかを選択します。
任意のキーを押して、 Databricks Project Init エディター タブを閉じます。
[ Select the project you want to open] で、作成したプロジェクトを選択します。
既存の Databricks Asset Bundles プロジェクトを開く
Databricks Asset Bundles プロジェクトには、プロジェクトのルート フォルダーに databricks.yml
ファイルがあります。 「Databricks アセット バンドルの構成」を参照してください。既存の Databricks Asset Bundles プロジェクトで拡張機能を使用する場合は、次のようにします。
Visual Studio Code を起動します。 メインメニューから「 File 」> 「Open Folder 」をクリックし、バンドルプロジェクトが格納されているディレクトリに移動します。
Visual Studio Code サイドバーの Databricks アイコンをクリックして、拡張機能の機能を開き、使用を開始します。
Visual Studio Code の Databricks 拡張機能で、現在のフォルダーで複数の Databricks Asset Bundles プロジェクトが検出された場合は、プロジェクトを開くか、ルートフォルダーにプロジェクト構成ファイルを作成するかを選択できます。
プロジェクトを選択した場合は、 コマンド パレットで、既存の Databricks Asset Bundles プロジェクトを選択します。
ルートフォルダに設定を作成すると、そのフォルダはバンドルプロジェクトになります。
プロジェクトのホストと認証方法を選択します。 「Visual Studio Code の Databricks 拡張機能の承認を設定する」を参照してください。
注:
Visual Studio Code v1 の Databricks 拡張機能を使用して作成されたプロジェクトを開くと、プロジェクトの既存の認証とワークスペース構成を使用して移行が自動的に試行されます。 移行ボタンは、自動移行が失敗した場合にのみ使用できます。
Databricks プロジェクト間の切り替え
Visual Studio Code の Databricks 拡張機能を使用すると、Visual Studio Code ワークスペース内に複数の Databricks プロジェクトを配置し、それらを簡単に切り替えることができます。 マルチバンドル プロジェクトを Visual Studio Code ワークスペースで開いた状態で、次の操作を行います。
Visual Studio Code サイドバーの Databricks アイコンをクリックして、拡張機能を開きます。
「ローカルフォルダ」をクリックして、拡張機能が使用するプロジェクトを選択します。
注:
実行アクションは、アクティブなバンドル内のファイルに対してのみ使用できます。
プロジェクトを Databricks プロジェクトに変換する
Databricks プロジェクトに変換する既存のプロジェクトがある場合:
Visual Studio Code を起動します。 メインメニューから、[ ファイル ]> [フォルダを開く ]をクリックし、プロジェクトに移動して開きます。
Visual Studio Code サイドバーの Databricks アイコンをクリックして、拡張機能を開きます。
[ 構成の作成] をクリックします。
コマンド・パレットで、プロジェクトのホストと認証方法を選択します。「Visual Studio Code の Databricks 拡張機能の承認を設定する」を参照してください。