Databricks Git フォルダーと Git の統合

Databricks Git フォルダーは、Databricks のビジュアル Git クライアントおよび API です。 リポジトリのクローン作成、コミットとプッシュ、プル、ブランチ管理、コミット時の差分の視覚的比較などの一般的な Git 操作をサポートします。

Git フォルダー内では、ノートブックまたはその他のファイルでコードを開発し、バージョン管理、コラボレーション、CI/CD に Git を使用したデータサイエンスおよびエンジニアリング コード開発のベスト プラクティスに従うことができます。

プレビュー

Databricks では、「Repos」機能が Databricks ワークスペース内の統合された Git フォルダー機能に置き換えられました。 この変更の詳細については、 「Databricks Repos はどうなりましたか?」を参照してください。

この機能は、すべてのリージョンで パブリック プレビュー 段階にあります。

注:

Git フォルダー (Repos) は、主にオーサリングおよび共同ワークフロー用に設計されています。

レガシーGit ReposGit統合からの移行については、 「レガシー から フォルダー (旧称 ) に移行する」Git を参照してください。

Databricks Git フォルダーで何ができるでしょうか?

Databricks Git フォルダーは、Git プロバイダーと統合することで、データおよび AI プロジェクトのソース管理を提供します。

Databricks Git フォルダーでは、Git 機能を使用して次のことを行うことができます。

  • リモートGitリポジトリのクローン作成、プッシュ、プルを行います。

  • マージ、リベース、競合の解決などの開発作業のためのブランチの作成と管理を行います。

  • ノートブック (IPYNB ノートブックを含む) を作成し、それらと他のファイルを編集します。

  • コミット時に相違点を視覚的に比較し、マージの競合を解決します。

詳しい手順については、 「Databricks Git フォルダーで Git 操作を実行する (Repos)」を参照してください。

注:

Databricks Git フォルダーには、CI/CD パイプラインと統合できるAPIもあります。 たとえば、Databricks リポジトリをプログラムで更新して、コードが常に最新バージョンになるようにすることができます。 Databricks Git フォルダーを使用したコード開発のベスト プラクティスについては、 「Git を使用した CI/CD テクニック」および「Databricks Git フォルダー (Repos)」を参照してください。

Databricks でサポートされているノートブックの種類については、「 Databricks ノートブックのエクスポートとインポート」を参照してください。

サポートされているGitプロバイダー

Databricks Git フォルダーは、統合された Git リポジトリによってサポートされます。 リポジトリは、次のセクションにリストされているクラウドおよびエンタープライズ Git プロバイダーのいずれかでホストできます。

注:

「Gitプロバイダー」とは何ですか?

「Git プロバイダー」は、Git に基づくソース管理モデルをホストする特定の (名前付き) サービスです。 Git ベースのソース管理プラットフォームは、開発会社がホストするクラウド サービスとして、または自社が自社のハードウェアにインストールして管理するオンプレミス サービスとして、2 つの方法でホストされます。 GitHub、Microsoft、GitLab、Atlassian などの多くの Git プロバイダーは、クラウドベースの SaaS とオンプレミス (「自己管理型」と呼ばれることもあります) の両方の Git サービスを提供しています。

構成時に Git プロバイダーを選択するときは、クラウド (SaaS) とオンプレミスの Git プロバイダーの違いに注意する必要があります。 オンプレミス ソリューションは通常、会社の VPN の背後でホストされ、インターネットからアクセスできない場合があります。 通常、オンプレミスの Git プロバイダーの名前は "Server" または "Self-Managed" で終わりますが、不明な場合は、会社の管理者に問い合わせるか、Git プロバイダーのドキュメントを確認してください。

Git プロバイダーがクラウドベースであり、サポートされているプロバイダーとしてリストされていない場合は、プロバイダーとして「GitHub」を選択すると機能する可能性がありますが、保証されません。

注:

プロバイダーとして "GitHub" を使用していて、クラウド バージョンとオンプレミス バージョンのどちらを使用しているかがまだわからない場合は、GitHub ドキュメントの「 GitHub Enterprise Server について 」を参照してください。

クラウド Databricks がサポートする Git プロバイダー

  • GitHub、GitHub AE、および GitHub Enterprise クラウド

  • Atlassian Bitbucket クラウド

  • GitLab と GitLab EE

  • Microsoft Azure DevOps (Azure repo)

  • AWS CodeCommit

Databricks でサポートされているオンプレミスの Git プロバイダー

  • GitHub エンタープライズ サーバー

  • アトラシアン Bitbucket Server および Data Center

  • GitLabセルフマネージド

  • Microsoft Azure DevOps Server: URL が dev.azure.com/* または visualstudio.com/*と一致しない場合、ワークスペース管理者は、Microsoft Azure DevOps Serverの URL ドメイン プレフィックスを明示的に許可リストに登録する必要があります。 詳しくは、 許可リスト内の URL に使用を制限するをご覧ください。

インターネットからアクセスできないオンプレミスの Git リポジトリを統合する場合は、Git 認証リクエスト用のプロキシも会社の VPN 内にインストールする必要があります。 詳細については、 「Databricks Git フォルダーのプライベート Git 接続のセットアップ ( Repos )」を参照してください。

Git プロバイダーでアクセストークンを使用する方法については、「 Git 資格情報の構成とリモート repo の Databricks への接続」を参照してください。

Git 統合 のためのリソース

Databricks CLI 2.0 を使用して、Databricks との Git 統合を行います。

次のリファレンス ドキュメントをお読みください。