Databricks CLI とは何ですか?

この情報は、 パブリック プレビュー段階の Databricks CLI バージョン 0.205 以降に適用されます。 Databricks CLI のバージョンを見つけるには、 databricks -vを実行します。

Databricks コマンドライン インターフェイス (Databricks CLI とも呼ばれます) は、ターミナル、コマンド プロンプト、または自動化スクリプトから Databricks プラットフォームを自動化するツールを提供します。 Web ターミナルを使用して、 ワークスペース内から DatabricksCLIコマンドを実行することもできます。DatabricksDatabricks Web ターミナルで シェル コマンドの実行 を参照してください。

従来の Databricks CLI ユーザー向けの情報

  • Databricks は、従来の Databricks CLI のサポートや新機能の作業は予定していません。

  • レガシー Databricks CLI の詳細については、「 Databricks CLI (レガシー)」を参照してください。

  • Databricks CLI バージョン 0.18 以下から Databricks CLI バージョン 0.205 以降に移行するには、 Databricks CLI の移行 を参照してください。

Databricks CLI はどのように機能しますか?

CLI は Databricks REST API をラップします。この API は、Databricks アカウントおよびワークスペース オブジェクトに関する情報を変更または要求するためのエンドポイントを提供します。 Databricks REST API リファレンスを参照してください。

たとえば、ワークスペース内の個々のクラスターに関する情報を印刷するには、次のように CLI を実行します。

databricks clusters get 1234-567890-a12bcde3

curlでは、同等の操作は次のとおりです。

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

例: Databricks ジョブの作成

次の例では、CLI を使用して Databricks ジョブを作成します。 このジョブには、1 つのジョブ タスクが含まれています。 このタスクは、指定された Databricks ノートブックを実行します。 このノートブックは、 wheelという名前の特定のバージョンの PyPI パッケージに依存しています。 このタスクを実行するために、ジョブは PYSPARK_PYTHONという名前の環境変数をエクスポートするジョブ クラスターを一時的に作成します。 ジョブの実行後、クラスターは終了します。

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "n2-highmem-4",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

次のステップ