ワークスペースファイルとは?

ワークスペース ファイルはDatabricks ワークスペース ファイル ツリー内のファイルであり、次に示す種類のファイルはワークスペースファイルには該当しません。

  • クエリー

  • ダッシュボード

  • Genie Space

  • エクスペリメント

これらの非該当タイプ以外のワークスペース ファイルは、任意のファイルの種類にすることができます。 一般的な例は次のとおりです。

  • .ipynb ノートブック

  • ソース ノートブック (拡張機能 .py.sql.r、および .scala

  • .py カスタムモジュールで使用されるファイル

  • .md ファイル( README.md

  • .csv またはその他の小さなデータファイル

  • .txt ファイル

  • .whl ライブラリ

  • ログファイル

ファイルの操作に関する推奨事項については、 ボリューム内のファイルおよびワークスペース ファイルに関する推奨事項を参照してください。

Databricks ワークスペース ファイル ツリーには、"Databricks Git フォルダー" という Git リポジトリにアタッチされたフォルダーを含めることができます。 ファイルタイプのサポートには、いくつかの追加の制限があります。 Git フォルダー (旧称 "Repos") でサポートされているファイルの種類の一覧については、Git フォルダーでサポートされているアセットの種類を参照してください。

重要

ワークスペース ファイルは、 Databricks Runtime バージョン 11.2 の デフォルト によってどこでも有効になります。 本番運用ワークロードの場合は、 Databricks Runtime 11.3 LTS 以上を使用してください。 この機能にアクセスできない場合は、ワークスペース管理者に問い合わせてください。

ワークスペース ファイルでできること

Databricksは、組み込みのファイルエディターなど、多くの種類のワークスペースファイルに対してローカル開発と同様の機能を提供します。すべてのファイルタイプやすべてのユースケースがサポートされているわけではありません。

ワークスペースファイルへのアクセスを作成、編集、管理するには、ノートブックの操作で使い慣れたパターンを使用します。ワークスペースファイルからのライブラリのインポートには、ローカル開発と同様の相対パスを使用できます。詳細については、次を参照してください。

ワークスペース ファイルに格納された initスクリプトは特別な挙動をします。ワークスペースファイルを使用して、任意の Databricks Runtime バージョンの initスクリプトを保存および参照できます。 「initスクリプトをワークスペース ファイルに保存するを参照してください。

Databricks Runtime 14.0 以降では、ローカルで実行されるコードの既定の現在の作業ディレクトリ (CWD) は、実行されているノートブックまたはスクリプトを含むディレクトリです。 これは、Databricks Runtime 13.3 LTS 以前からの動作の変更です。 デフォルトの現在の作業ディレクトリは何ですか?を参照してください。

制限事項

  • ワークフローで リモート Git リポジトリにあるソース コードを使用している場合、現在のディレクトリに書き込んだり、相対パスを使用して書き込んだりすることはできません。 他のロケーション オプションにデータを書き込みます。

  • ワークスペース ファイルに保存するときに git コマンドを使用することはできません。 ワークスペース ファイルでは、 .git ディレクトリの作成は許可されていません。

  • Sparkエグゼキューター (spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv") など) を使用したワークスペース ファイルからの読み込みは、サーバレス コンピュートではサポートされていません。

  • エグゼキューターはワークスペースファイルに書き込むことができません。

  • シンボリックリンクは、 /Workspace ルートフォルダの下のターゲットディレクトリ( os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing")など)でのみサポートされます。

  • Databricks Runtime 14.2 以前の 共有アクセス モード を持つクラスター上の ユーザー定義関数 (UDF) からワークスペース ファイルにアクセスすることはできません。

  • ノートブックは、 Databricks Runtime 16.2 以降、 およびサーバレス環境 2 以降でのみワークスペースファイルとしてサポートされます。

ファイルサイズの制限

  • ワークスペースのファイルサイズは 500MB に制限されています。 この制限を超えるファイルをダウンロードまたは作成しようとする操作は失敗します。

ファイルアクセス権限の制限

/Workspace未満のフォルダ内のファイルへのアクセス権は、インタラクティブコンピュートの場合は36時間後、ジョブの場合は30日後に有効期限が切れます。Databricks は、/ワークスペース ファイルへのアクセスが必要な場合は、ジョブとして長時間の実行を実行することをお勧めします。

ワークスペースファイルを有効にする

Databricks ワークスペースでノートブック以外のファイルのサポートを有効にするには、 /api/2.0/workspace-confを呼び出します。 Databricks ワークスペースにアクセスできるノートブックまたは他の環境からの REST API。 ワークスペース ファイルはデフォルトで有効になっています。

Databricks ワークスペースでノートブック以外のファイルのサポートを有効または再度有効にするには、 /api/2.0/workspace-confを呼び出して、 enableWorkspaceFileSystemキーの値を取得します。 trueに設定されている場合、ノートブック以外のファイルはワークスペースですでに有効になっています。

次の例は、ノートブックからこの API を呼び出して、ワークスペース ファイルが無効になっているかどうかを確認し、無効になっている場合は再度有効にする方法を示しています。

例: Databricks ワークスペース ファイルのサポートを再度有効にするためのノートブック

ノートブックを新しいタブで開く