Databricks上のCI / CDとは何ですか?

この記事は、Databricks での CI/CD の概要です。継続的インテグレーションと継続的デリバリー (CI/CD) は、自動化パイプラインを使用して、短期間で頻繁なサイクルでソフトウェアを開発および配信するプロセスを指します。 CI/CDはソフトウェア開発では一般的ですが、データエンジニアリングやデータサイエンスでもその必要性がますます高まっています。コードの構築、テスト、デプロイメントを自動化することで、開発チームは、データエンジニアリングチームやデータサイエンスチームに依然として一般的な手動プロセスよりも確実にリリースを提供できます。

プラットフォーム用の複雑なデータ分析およびプロジェクトの開発とデプロイを可能にする用のDatabricks Databricksアセットバンドル CI/CDMLDatabricksの使用を推奨します。バンドルを使用すると、多くのカスタム構成を簡単に管理し、ビルド、テスト、プロジェクトのDatabricks開発、ステージング、本番運用ワークスペースへのデプロイを自動化できます。

Databricks での機械学習プロジェクトの CI/CD の概要については、「 Databricks が機械学習の CI/CD をサポートする方法」を参照してください。

DatabricksのCI / CDパイプラインには何がありますか?

Databricks アセットバンドルを使用して、Databricks CI/CD 実装を定義し、プログラムで管理できます。これには通常、次のものが含まれます。

ノートブック： Databricks ノートブックは、多くの場合、データエンジニアリングおよびデータサイエンスワークフローの重要な部分です。ノートブックのバージョン管理を使用し、CI/CD パイプラインの一部として検証およびテストすることもできます。ノートブックに対して自動テストを実行して、期待どおりに機能しているかどうかを確認できます。
ライブラリ: デプロイされたコードを実行するために必要なライブラリの依存関係を管理します。ライブラリのバージョン管理を使用し、自動テストと検証にライブラリを含めます。
ワークフロー:Databricks Workflows 、ノートブックまたはSparkを使用して自動タスクをスケジュールおよび実行できるようにするジョブで構成されています。
データパイプライン : データパイプラインを宣言するためのCI/CD Delta Live Tablesのフレームワークであるを使用して、Databricks オートメーションにデータパイプラインを組み込むこともできます。
インフラストラクチャ: インフラストラクチャ構成には、ターゲット環境のクラスター、ワークスペース、ストレージの定義とプロビジョニング情報が含まれます。インフラストラクチャの変更は CI/CD パイプラインの一部として検証およびテストでき、変更に一貫性がありエラーがないことを確認できます。

ステップ for CI/CD on Databricks

Databricks CI/CDパイプラインの一般的なフローには、次のステップが含まれます。

保存: Databricks コードとノートブックを Git などのバージョン管理システムに保存します。これにより、時間の経過に伴う変更を追跡し、他のチームメンバーと共同作業を行うことができます。 CI/CDGitとDatabricksGit フォルダー (Repos ) Gitを使用したテクニックとバンドルの設定を参照してください。
コード: ワークスペース内の Databricks ノートブックで、または外部 IDE を使用してローカルでコードと単体テストを開発します。 Databricks は、Databricks ワークスペースへの変更の開発とデプロイを容易にするVisual Studio Code 拡張機能を提供します。
Build : Databricks Asset Bundles 設定を使用して、デプロイ中に特定のアーティファクトを自動的に構築します。「成果物」を参照してください。
デプロイ: Databricks アセットバンドルを Azure DevOps、Jenkins、GitHub Actions などのツールと組み合わせて使用し、変更を Databricks ワークスペースにデプロイします。「Databricks Asset Bundle デプロイメントモード」を参照してください。
テスト: pytest などのツールを使用して、コードの変更を検証する自動テストを開発および実行します。
実行: Databricks CLIをDatabricks Asset Bundles と組み合わせて使用して、 Databricksワークスペースでの実行を自動化します。「バンドルを実行する」を参照してください。
監視: Azure Monitor や Datadog などのツールを使用して、Databricks 内のコードとワークフローのパフォーマンスを監視します。これは、本番運用環境で発生する問題を特定して解決するのに役立ちます。
反復: データエンジニアリングまたはデータサイエンスプロジェクトを改善および更新するために、小規模で頻繁な反復を行います。小さな変更は、大きな変更よりも簡単にロールバックできます。

面積	これらのツールは、次の場合に使用します。
Databricksアセットバンドル	CI/CD のベストプラクティスとワークフローを使用して、Databricks ジョブ、Delta Live Tables パイプライン、MLOps スタックをプログラムで定義、デプロイ、実行します。
Git および Databricks Git フォルダーを使用した CI/CD ワークフロー	ソース管理および CI/CD ワークフローには、GitHub および Databricks Git フォルダーを使用します。
GitHub アクションを使用した継続的インテグレーションとデリバリー	Databricks 用に開発された GitHub Actions を使用する GitHub で CI/CD ワークフローを構築します。
Databricks でジェンキンスと CI/CD	Jenkins を使用する Databricks 用の CI/CD パイプラインを開発します。
Apache Airflowで Databricks ジョブをオーケストレーション	Apache Airflow を使用するデータパイプラインを管理およびスケジュールします。
サービスプリンシパル for CI/CD	CI/CD システムでは、ユーザーではなくサービスプリンシパルを使用します。

Databricks上のCI / CDとは何ですか?

DatabricksのCI / CDパイプラインには何がありますか?

ステップ for CI/CD on Databricks

関連リンク