Databricks Reposはどうなりましたか?

Databricks は、ユーザーが Workspace UI から Git リポジトリでバックアップされたフォルダーを直接操作できるようにする新しいユーザー インターフェイス要素を展開し、以前の個別の「 Repos 」機能を効果的に置き換えました。

この変更はどのような意味がありますか?

プロジェクト アセットのバージョン管理された Git ベースのソース管理のための Databricks Repos 機能のユーザーの場合、コア機能は変更されていません。 最も顕著な違いは、多くのコンテキスト UI 操作が「Repos」ではなく「Git フォルダー」を参照するようになったことです。

たとえば、Git リポジトリでバックアップされた Databricks フォルダーは、UI から[新規] を選択してから[リポジトリ] を選択することで作成できます。

「リポジトリ」を参照するために使用される「新規」メニュー オプション

ここで、 「新規」を選択し、 「Git フォルダー」を選択します。 同じこと、違う名前!

「新規」メニューオプションでは、「Git フォルダー」を作成するように求められます。

この変更により、バージョン管理されたフォルダーの操作が簡素化されるいくつかの機能強化が提供されます。

  1. フォルダー構成の改善: Git フォルダーはワークスペース ファイル ツリーのどのレベルでも作成できるため、プロジェクトに最適な方法で Git フォルダーを整理できます。 たとえば、 /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>に Git フォルダーを作成できます。 Repos /Workspace/Repos/<user email>/<Repo name> のようなReposユーザー フォルダのルートなど、固定ディレクトリ レベルでのみ作成できます。

    • 注: Git フォルダーには、現在 Repos でサポートされていない他のアセットを含めたり、それと併置したりできます。 DBSQL アセットや MLflow エクスペリメントなどのサポートされていないアセット タイプは、Git フォルダーに移動できます。 追加のアセットのシリアル化サポートは、時間の経過とともに追加される予定です。

  2. UI 動作の簡素化: この変更により、一般的なワークスペース インタラクション (Git との連携) が Databricks ワークスペースに直接導入され、ワークスペースとバージョン管理された Git フォルダー間の移動にかかる時間が短縮されます。

具体的には何が変わったのでしょうか?

  1. Git フォルダーは、 /Reposディレクトリの外部に作成できます。

  2. Git フォルダーは、Databricks ワークスペースで[新規作成] > [Git フォルダー]を選択して作成します。 これにより、 /Workspace/Users/<user-email>/の下に新しい Git フォルダーが作成されます。

  3. Git フォルダーは、 /Workspace/Users/<user-email>の下にある限り、ワークスペース ファイル ツリーのさまざまな深さに作成できます。 たとえば、 /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>に Git フォルダーを作成できます。 /Workspace/Users/<user-email>下に複数の Git フォルダーを置くことができます。

  4. サポートされていないアセットはGit フォルダー内で許可されます。 他のアセットタイプのシリアル化サポートは、時間の経過とともに追加される予定です。

  5. Repos とは異なり、リモート リポジトリ URL がないと Databricks に新しい Git フォルダーを作成できません。

追加情報

ユーザーが作成した既存のReposは廃止されません。 ユーザーは既存のRepos Git フォルダーに移行する必要はありません。 Reposワークスペース UI に統合され、UI 内の別個のトップレベル エクスペリエンスではなくなりました。

  • 既存の/Repos参照は引き続き機能します。 /Reposパスの下にあるノートブックを使用するjobsdbutils.notebook.run 、および%run参照は引き続き機能します。

  • 既存の /Repos フォルダは、 /Workspace as /Workspace/Reposの通常のフォルダに変換され、特別な処理は削除できます。 まれに、このリダイレクトを機能させるためにワークスペースに何らかの変更を加える必要がある場合があります。 詳細については、 「ワークスペース オブジェクトへの参照」を参照してください。

Databricks では、Databricks ワークスペースから Git ソース管理に接続する必要がある場合、Repos ではなく新しい Git フォルダーを作成することをお勧めします。 Git リポジトリと他のワークスペース アセットを同じ場所に配置すると、Git フォルダーがReposよりも見つけやすくなり、管理が容易になります。

Git フォルダーのアクセス許可Git フォルダーには、他のワークスペース フォルダーと同じワークスペース フォルダーのアクセス許可があります。 ほとんどの Git 操作を実行するには、ユーザーはCAN_MANAGE権限を持っている必要があります。

Git フォルダー内のコードを実行するにはどの DBR を使用する必要がありますか?

Git フォルダーと従来の Repos 間で一貫したコードを実行するには、DBR 14.3 以降を使用して Git フォルダーでコードを実行することをお勧めします。

現在の作業ディレクトリ (CWD) の動作

Databricks Runtime (DBR) バージョン 14 以降では、すべてのノートブックに同じ現在の作業ディレクトリ (CWD) エクスペリエンスが提供されます。現在の作業ディレクトリは、ノートブックの実行元のフォルダーであり、相対パスの使用が可能です。 Databricks Runtime (DBR) の古いバージョンでは、Git フォルダー内のノートブックと非 Git フォルダー内のノートブックの間でCWD エクスペリエンスが一致しない可能性があります。

Python sys.path の動作

Databricks Runtime (DBR) バージョン 14.3 以降では、Git フォルダーで従来の Repos と同じsys.path動作が提供されます。 以前の DBR バージョンでは、ルート リポジトリ ディレクトリが Git フォルダの sys.path に自動的に追加されないため、Git フォルダの動作は従来の Repos とは異なります。 Python の場合、 sys.pathには、モジュールをインポートするときにインタープリターが検索するディレクトリのリストが含まれます。 DBR 14.3 以降を使用できない場合は、回避策として、フォルダー パスを sys.pathに手動で追加できます。

相対パスを使用してディレクトリをsys.pathに追加する方法の例については、 「Python および R モジュールのインポート」を参照してください。

Python ライブラリの優先順位

Databricks Runtime (DBR) バージョン 14.3 以降では、Git フォルダー内で従来の Repos と同じPython ライブラリの優先順位が提供されます。