ワークスペースオブジェクトの概要
この記事では、Databricksワークスペースオブジェクトの概要を説明します。ワークスペースブラウザでは、複数のペルソナにわたってワークスペースオブジェクトを作成、表示、整理できます。
ワークスペースアセットの命名に関する注意
ワークスペース アセットの完全な名前は、ベース名とファイル拡張子で構成されます。 たとえば、ノートブックのファイル拡張子は、ノートブックの言語と形式に応じて、 .py
、 .sql
、 .scala
、 .r
、 .ipynb
になります。
ノートブック アセットを作成する場合、そのベース名と完全な名前 (ファイル拡張子と連結されたベース名) は、ワークスペース フォルダー内で一意である必要があります。 アセットに名前を付けると、Databricks はファイル拡張子を追加してこの基準を満たしているかどうかを確認します。完全な名前がフォルダー内の既存のファイルと一致する場合、その名前は許可されず、ノートブックに新しい名前を選択する必要があります。 たとえば、 test.py
という名前の Python ファイルと同じフォルダーにtest
という名前の Python ノートブック (Python ソース形式) を作成しようとすると、許可されません。
クラスター
Databricks データサイエンス & エンジニアリング と Databricks Mosaic AI クラスターは、実行中の本番運用 ETL パイプライン、ストリーミング分析、アドホック アナリティクス、機械学習など、さまざまなユースケースに対応する統合プラットフォームを提供します。 クラスターは、 Databricks コンピュート リソースの一種です。 その他のコンピュート リソースの種類には、DatabricksSQL ウェアハウス があります。
クラスターの管理と使用の詳細については、「 コンピューティング」を参照してください。
ノートブック
ノートブックは、ファイルや表、視覚化、説明テキストを操作する一連の実行可能なセル (コマンド) を含むドキュメントへの Web ベースのインターフェイスです。 コマンドは、以前に実行された 1 つ以上のコマンドの出力を参照して、連続して実行できます。
ノートブックは、Databricksでコードを実行するためのメカニズムのひとつです。もうひとつのメカニズムはジョブです。
ノートブックの管理と使用の詳細については、Databricksノートブックの概要を参照してください。
ジョブ
ジョブは、Databricksでコードを実行するためのメカニズムのひとつです。もうひとつのメカニズムはノートブックです。
ジョブの管理と使用に関する詳細な情報については、「 ワークフローのスケジュールと調整」を参照してください。
ライブラリ
ライブラリを使用すると、クラスター上で実行されているノートブックやジョブでサードパーティやローカルで構築されたコードを利用できるようになります。
ライブラリの管理と使用の詳細については、 ライブラリを参照してください。
データ
Databricksワークスペースにマウントされた分散ファイルシステムにデータをインポートし、Databricksノートブックおよびクラスターでそのデータを作業することができます。さまざまなApache Sparkデータソースを使用して、データにアクセスすることもできます。
データの読み込みに関する詳細については、「 Databricks レイクハウスへのデータの取り込み」を参照してください。
ファイル
プレビュー
この機能はパブリックプレビュー段階です。
Databricks Runtime 11.3 LTS 以降では、Databricks ワークスペースで任意のファイルを作成して使用できます。 ファイルは任意のファイルタイプにすることができます。 一般的な例は次のとおりです。
.py
カスタムモジュールで使用されるファイル。.md
ファイル(README.md
など)。.csv
またはその他の小さなデータファイル。.txt
ファイル。ログファイル。
ファイルの使用に関する詳細な情報については、「 Databricks でのファイルの操作」を参照してください。 Databricks ノートブックで開発するときにファイルを使用してコードをモジュール化する方法については、「Databricks ノートブック間でコードを共有する」を参照してください。
Git フォルダー
Git フォルダーは Databricks フォルダーであり、その内容はリモート Git リポジトリに同期することによって一緒にバージョン管理されます。 Databricks Git フォルダーを使用すると、Databricks でノートブックを開発し、コラボレーションとバージョン管理にリモート Git リポジトリを使用できます。
リポジトリの使用に関する詳細な情報については、「 フォルダーのGit 統合DatabricksGit 」を参照してください。
モデル
モデルとは、MLflow Model Registryに登録されているモデルを指します。モデルレジストリは、MLflowモデルのライフサイクル全体を管理できる一元化されたモデルストアです。時系列のモデル系譜、モデルのバージョン管理、ステージ遷移、モデルとモデルバージョンの注釈と説明を提供します。
モデルの管理と使用に関する詳細については、「 Unity Catalogでモデルのライフサイクルを管理する」を参照してください。
エクスペリメント
MLflowエクスペリメントは、MLflow機械学習モデルのトレーニング実行の組織化とアクセス制御の主要な単位です。それぞれのエクスペリメントでは、実行の可視化、検索、比較ができるほか、他のツールで分析するために実行の成果物やメタデータをダウンロードすることもできます。
エクスペリメントの管理と使用に関する詳細については、MLflowエクスペリメントを使用してトレーニングの実行を整理するを参照してください。
クエリー
クエリは、データを操作できる SQL ステートメントです。 詳細については、「 保存されたクエリへのアクセスと管理」を参照してください。
ダッシュボード
ダッシュボードは、クエリの視覚化と解説のプレゼンテーションです。 「 ダッシュボード」 または 「レガシーダッシュボード」を参照してください。
アラート
アラートは、クエリーによって返されたフィールドがしきい値に達したことを知らせる通知です。 詳細については、「 Databricks SQL アラートとは」を参照してください。
ワークスペースオブジェクトへの参照
これまで、ユーザーは一部の Databricks APIs (%sh
) に対しては /Workspace
パス プレフィックスを含める必要がありましたが、他のもの (%run
、REST API 入力) に対しては必要ありませんでした。
ユーザーは、どこでも/Workspace
接頭辞が付いたワークスペース パスを使用できます。 /Workspace
プレフィックスのないパスへの古い参照はリダイレクトされ、引き続き機能します。 すべてのワークスペース パスには、ボリューム パスや DBFS パスと区別するために、 /Workspace
プレフィックスを付けることをお勧めします。
一貫した/Workspace
パス接頭辞の動作の前提条件は次のとおりです。ワークスペースのルート レベルに/Workspace
フォルダーが存在してはなりません。 ルート レベルに/Workspace
フォルダーがあり、この UX 改善を有効にしたい場合は、作成した/Workspace
フォルダーを削除するか名前を変更し、Databricks アカウント チームにお問い合わせください。