ワークスペースオブジェクトの概要

この記事では、Databricksワークスペースオブジェクトの概要を説明します。ワークスペースブラウザでは、複数のペルソナにわたってワークスペースオブジェクトを作成、表示、整理できます。

ワークスペースアセットの命名に関する注意

ワークスペース アセットの完全な名前は、ベース名ファイル拡張子で構成されます。 たとえば、ノートブックのファイル拡張子は、ノートブックの言語と形式に応じて、 .py.sql.scala.r.ipynbになります。

ノートブック アセットを作成する場合、そのベース名と完全な名前 (ファイル拡張子と連結されたベース名) は、ワークスペース フォルダー内で一意である必要があります。 アセットに名前を付けると、Databricks はファイル拡張子を追加してこの基準を満たしているかどうかを確認します。完全な名前がフォルダー内の既存のファイルと一致する場合、その名前は許可されず、ノートブックに新しい名前を選択する必要があります。 たとえば、 test.pyという名前の Python ファイルと同じフォルダーにtestという名前の Python ノートブック (Python ソース形式) を作成しようとすると、許可されません。

クラスター

Databricks データサイエンス & エンジニアリング と Databricks Mosaic AI クラスターは、実行中の本番運用 ETL パイプライン、ストリーミング分析、アドホック アナリティクス、機械学習など、さまざまなユースケースに対応する統合プラットフォームを提供します。 クラスターは、 Databricks コンピュート リソースの一種です。 その他のコンピュート リソースの種類には、DatabricksSQL ウェアハウス があります。

クラスターの管理と使用の詳細については、「 コンピューティング」を参照してください。

ノートブック

ノートブックは、ファイルや視覚化、説明テキストを操作する一連の実行可能なセル (コマンド) を含むドキュメントへの Web ベースのインターフェイスです。 コマンドは、以前に実行された 1 つ以上のコマンドの出力を参照して、連続して実行できます。

ノートブックは、Databricksでコードを実行するためのメカニズムのひとつです。もうひとつのメカニズムはジョブです。

ノートブックの管理と使用の詳細については、Databricksノートブックの概要を参照してください。

ジョブ

ジョブは、Databricksでコードを実行するためのメカニズムのひとつです。もうひとつのメカニズムはノートブックです。

ジョブの管理と使用に関する詳細な情報については、「 ワークフローのスケジュールと調整」を参照してください。

ライブラリ

ライブラリを使用すると、クラスター上で実行されているノートブックやジョブでサードパーティやローカルで構築されたコードを利用できるようになります。

ライブラリの管理と使用の詳細については、 ライブラリを参照してください。

データ

Databricksワークスペースにマウントされた分散ファイルシステムにデータをインポートし、Databricksノートブックおよびクラスターでそのデータを作業することができます。さまざまなApache Sparkデータソースを使用して、データにアクセスすることもできます。

データの読み込みに関する詳細については、「 Databricks レイクハウスへのデータの取り込み」を参照してください。

ファイル

プレビュー

この機能はパブリックプレビュー段階です。

Databricks Runtime 11.3 LTS 以降では、Databricks ワークスペースで任意のファイルを作成して使用できます。 ファイルは任意のファイルタイプにすることができます。 一般的な例は次のとおりです。

  • .py カスタムモジュールで使用されるファイル。

  • .md ファイル(README.mdなど)。

  • .csv またはその他の小さなデータファイル。

  • .txt ファイル。

  • ログファイル。

ファイルの使用に関する詳細な情報については、「 Databricks でのファイルの操作」を参照してください。 Databricks ノートブックで開発するときにファイルを使用してコードをモジュール化する方法については、「Databricks ノートブック間でコードを共有する」を参照してください。

Git フォルダー

Git フォルダーは Databricks フォルダーであり、その内容はリモート Git リポジトリに同期することによって一緒にバージョン管理されます。 Databricks Git フォルダーを使用すると、Databricks でノートブックを開発し、コラボレーションとバージョン管理にリモート Git リポジトリを使用できます。

リポジトリの使用に関する詳細な情報については、「 フォルダーのGit 統合DatabricksGit 」を参照してください。

モデル

モデルとは、MLflow Model Registryに登録されているモデルを指します。モデルレジストリは、MLflowモデルのライフサイクル全体を管理できる一元化されたモデルストアです。時系列のモデル系譜、モデルのバージョン管理、ステージ遷移、モデルとモデルバージョンの注釈と説明を提供します。

モデルの管理と使用に関する詳細については、「 Unity Catalogでモデルのライフサイクルを管理する」を参照してください。

エクスペリメント

MLflowエクスペリメントは、MLflow機械学習モデルのトレーニング実行の組織化とアクセス制御の主要な単位です。それぞれのエクスペリメントでは、実行の可視化、検索、比較ができるほか、他のツールで分析するために実行の成果物やメタデータをダウンロードすることもできます。

エクスペリメントの管理と使用に関する詳細については、MLflowエクスペリメントを使用してトレーニングの実行を整理するを参照してください。

クエリー

クエリは、データを操作できる SQL ステートメントです。 詳細については、「 保存されたクエリへのアクセスと管理」を参照してください。

ダッシュボード

ダッシュボードは、クエリの視覚化と解説のプレゼンテーションです。 「 ダッシュボード」 または 「レガシーダッシュボード」を参照してください。

アラート

アラートは、クエリーによって返されたフィールドがしきい値に達したことを知らせる通知です。 詳細については、「 Databricks SQL アラートとは」を参照してください。

ワークスペースオブジェクトへの参照

これまで、ユーザーは一部の Databricks APIs (%sh) に対しては /Workspace パス プレフィックスを含める必要がありましたが、他のもの (%run、REST API 入力) に対しては必要ありませんでした。

ユーザーは、どこでも/Workspace接頭辞が付いたワークスペース パスを使用できます。 /Workspaceプレフィックスのないパスへの古い参照はリダイレクトされ、引き続き機能します。 すべてのワークスペース パスには、ボリューム パスや DBFS パスと区別するために、 /Workspaceプレフィックスを付けることをお勧めします。

一貫した/Workspaceパス接頭辞の動作の前提条件は次のとおりです。ワークスペースのルート レベルに/Workspaceフォルダーが存在してはなりません。 ルート レベルに/Workspaceフォルダーがあり、この UX 改善を有効にしたい場合は、作成した/Workspaceフォルダーを削除するか名前を変更し、Databricks アカウント チームにお問い合わせください。

ファイル、フォルダ、ノートブックの URL を共有する

Databricks ワークスペースでは、ワークスペース ファイル、ノートブック、フォルダーへの URL は次の形式になります。

ワークスペースファイルの URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

ノートブックの URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

フォルダ(ワークスペースと Git)の URL

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

現在のパス内のフォルダー、ファイル、またはノートブックが Git プル コマンドで更新されたり、削除されて同じ名前で再作成されたりすると、これらのリンクが壊れる可能性があります。 ただし、次の形式のリンクに変更することで、ワークスペース パスに基づいてリンクを作成し、適切なアクセス レベルを持つ他の Databricks ユーザーと共有することができます。

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

フォルダー、データベース、ファイルへのリンクは、URL 内の?o=<16-digit-workspace-ID>の後のすべてをワークスペース ルートからのファイル、フォルダー、またはデータベースへのパスに置き換えることで共有できます。 フォルダの URL を共有している場合は、元の URL からも URL を削除し /browse/folders/<16-digit-ID>

ファイル パスを取得するには、共有するワークスペース内のフォルダー、ノートブック、またはファイルを右クリックしてコンテキスト メニューを開き、 [URL/パスのコピー] > [フル パス]を選択します。 コピーしたファイル パスの先頭に#workspaceを追加し、結果の文字列を?o=<16-digit-workspace-ID>の後に追加して、上記の URL 形式と一致させます。

ワークスペース フォルダーのコンテキスト メニューから [URL パスのコピー] を選択し、続いて [フル パス] を選択します。

URL の定式化の例 #1: フォルダー URL

ワークスペース フォルダー URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222を共有するには、URL からbrowse/folders/1111111111111111サブ文字列を削除します。 #workspaceを追加し、その後に共有するフォルダーまたはワークスペース オブジェクトへのパスを追加します。

この場合、ワークスペース パスはフォルダー/Workspace/Users/user@example.com/team-git/notebooksになります。 ワークスペースから完全なパスをコピーしたら、共有可能なリンクを作成できます。

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

URL 作成例 2: ノートブック URL

ノートブック URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333を共有するには、 #notebook/2222222222222222/command/3333333333333333を削除してください。 #workspaceを追加し、その後にフォルダーまたはワークスペース オブジェクトへのパスを追加します。

この場合、ワークスペース パスはノートブック/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebookを指します。 ワークスペースから完全なパスをコピーしたら、共有可能なリンクを作成できます。

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

これで、共有するファイル、フォルダー、またはノートブック パスの安定した URL ができました。 URL と識別子の詳細については、 「ワークスペース オブジェクトの識別子を取得する」を参照してください。