Visual Studio Code の Databricks 拡張機能とは何ですか?
Visual Studio Code 用の Databricks 拡張機能を使用すると、ローカル開発マシンで実行されている Visual Studio Code 統合開発環境 (IDE) から、リモートの Databricks ワークスペースに接続できます。 その後、次の操作を実行できます。
Databricks アセット バンドルを定義、デプロイ、実行して、Visual Studio Code UI を使用して CI/CD パターンとベスト プラクティスを Databricks ジョブ、Delta Live Tables パイプライン、MLOps スタックに適用します。 「Databricks Asset Bundles とは」および「Databricks Asset Bundles 拡張機能」を参照してください。
Visual Studio Code からローカル Python コード ファイルを、リモート ワークスペースの Databricks クラスターで実行します。 「クラスターで Python ファイルを実行する」を参照してください
ローカル Python コード ファイル (
.py
) と Python、R、Scala、SQL ノートブック (.py
、.ipynb
、.r
、.scala
、.sql
) を Visual Studio Code からリモート ワークスペースの Databricks ジョブとして実行します。 「Python ファイルをジョブとして実行する」を参照してください。デバッグ環境と Databricks Connect をセットアップして構成するには、選択ダイアログをトリガーする簡単なチェックリストを使用します。 Visual Studio Code の Databricks 拡張機能については、「Databricks Connect を使用したコードのデバッグ」を参照してください。
Databricks Connect を使用して、Visual Studio Code 内でノートブックをセルごとにデバッグします。 「Visual Studio Code の Databricks 拡張機能を使用して Databricks Connect でノートブック セルを実行およびデバッグする」を参照してください。
Visual Studio Code で開発したローカル コードをリモート ワークスペースのコードと同期します。
注:
Visual Studio Code の Databricks 拡張機能では、自動化されたジョブとして R、Scala、および SQL ノートブックを実行できますが、Visual Studio Code 内でこれらの言語をより深くサポートすることはできません。
はじめに
Visual Studio Code の Databricks 拡張機能の使用を開始するには:
拡張機能をインストールします。
新しい Databricks プロジェクトを作成するか、既存の Visual Studio Code プロジェクトを移行します。
Databricks 拡張機能の UI を使用して、プロジェクトを簡単に構成できます。
拡張機能のチュートリアルの一部として、いくつかの Python コードを実行します。
Databricks Connect 統合を使用してコードをデバッグします。
pytest
を使用してコードをテストします。「Visual Studio Code の Databricks 拡張機能を使用して pytest でテストを実行する」を参照してください。
新しい Databricks プロジェクトを作成する
拡張機能をインストールしたら、Visual Studio Code の Databricks 拡張機能を使用して新しい Databricks プロジェクトを作成できます。
Visual Studio Code を起動します。
Visual Studio Code サイドバーの Databricks アイコンをクリックして、拡張機能を開きます。
[ 新しい Databricks プロジェクトの作成] をクリックします。
コマンド・パレットで、プロジェクトのホストと認証方法を選択します。「Visual Studio Code の Databricks 拡張機能の認証設定」を参照してください。
[ 新しいプロジェクトを配置するフォルダーへのパスを指定する] に、プロジェクトを作成するローカル開発コンピューター上のフォルダーへのパスを入力するか、[ フォルダー選択ダイアログを開く ] をクリックしてプロジェクト フォルダーへのパスを選択します。
[Databricks プロジェクトの初期化ビュー で使用するテンプレート ] で、上矢印と下矢印を使用してプロジェクト テンプレートを選択し、 Enter キーを押します。 バンドルプロジェクトテンプレートに関する情報については、「アセットバンドルプロジェクトテンプレートDatabricks」を参照してください。
このプロジェクト のプロジェクト名として [一意] 名 を入力するか、デフォルトのプロジェクト名である
my_project
のままにして 、Enter キーを押します。スタブ (サンプル) ノートブック、スタブ (サンプル) Delta Live Tables パイプライン、スタブ (サンプル) Python パッケージ、またはこれらのスタブ (サンプル) の任意の組み合わせをプロジェクトに追加するかどうかを選択します。
任意のキーを押して、 Databricks Project Init エディター タブを閉じます。
[ Select the project you want to open] で、作成したプロジェクトを選択します。
プロジェクトを Databricks プロジェクトに移行する
Databricks プロジェクトに移行する既存のプロジェクトがある場合は、Visual Studio Code の Databricks 拡張機能でプロジェクトを開き、移行を開始します。
Visual Studio Code を起動します。 メインメニューから、[ ファイル ]> [フォルダを開く ]をクリックし、プロジェクトに移動して開きます。
Visual Studio Code サイドバーの Databricks アイコンをクリックして、拡張機能を開きます。
[Databricks プロジェクトへの移行] をクリックします。
コマンド・パレットで、プロジェクトのホストと認証方法を選択します。「Visual Studio Code の Databricks 拡張機能の認証設定」を参照してください。
注:
Visual Studio Code v1 の Databricks 拡張機能を使用して作成されたプロジェクトを開くと、プロジェクトの既存の認証とワークスペース構成を使用して移行が自動的に試行されます。 移行ボタンは、自動移行が失敗した場合にのみ使用できます。
既存の Databricks Asset Bundles プロジェクトを開く
Visual Studio Code の Databricks 拡張機能で現在のフォルダーに複数の Databricks Asset Bundles プロジェクトが検出された場合、Visual Studio Code の Databricks 拡張機能を使用すると、開くプロジェクトを選択できます。
注:
Databricks Asset Bundles プロジェクトには、プロジェクトのルート フォルダーに databricks.yml
ファイルがあります。 「Databricks アセット バンドルの構成」を参照してください。
Visual Studio Code を起動します。 メインメニューから「 File 」> 「Open Folder 」をクリックし、バンドルプロジェクトが格納されているディレクトリに移動します。
Visual Studio Code サイドバーの Databricks アイコンをクリックして、拡張機能を開きます。
[ 既存の Databricks プロジェクトを開く] をクリックします。
コマンド パレットで、既存の Databricks Asset Bundles プロジェクトを選択します。
コマンド・パレットで、プロジェクトのホストと認証方法を選択します。「Visual Studio Code の Databricks 拡張機能の認証設定」を参照してください。
ワークスペースに別の Databricks プロジェクトを追加する
Visual Studio Code の Databricks 拡張機能を使用すると、Visual Studio Code ワークスペース内に複数の Databricks プロジェクトを配置し、それらを簡単に切り替えることができます。 別のプロジェクトを追加するには:
Visual Studio Code を起動します。 メインメニューから「 ファイル 」>「 ワークスペースにフォルダを追加 」をクリックし、他のバンドルプロジェクトが含まれているディレクトリに移動します。
Visual Studio Code サイドバーの Databricks アイコンをクリックして、拡張機能を開きます。
「アクティブワークスペースフォルダ」をクリックして、拡張機能で使用するプロジェクトを選択します。