Databricks での開発

Databricks 開発者ユーザーには、 data scientists、データエンジニア、データアナリスト、機械学習エンジニア、 DevOps および MLOps エンジニアが含まれ、全員が特定のニーズに合わせて Databricks を拡張およびカスタマイズするためのソリューションと統合を構築しています。 ワークスペースで利用できる多くのDatabricks APIsおよびデータエンジニアリング機能に加えて、Databricksの開発者ユーザーをサポートするDatabricksに接続してローカルで開発するための多くのツールもあります。

この記事では、APIs Databricks開発者ユーザーが利用できる とツールの概要について説明します。

ワークスペースでコーディングを開始する

ワークスペースでの開発は、 Databricks APIsにすばやく慣れるための優れた方法です。 Databricks は、Python、SQL、Scala、R、および便利なツールやユーティリティなど、開発者向けのワークスペース機能をサポートしています。

ここでは、いくつかの方法をご紹介します。

カスタムアプリとソリューションの構築

Databricks には、ワークスペース開発とローカル開発の両方のためのツールが用意されています。 ワークスペースでは、UI を使用してアプリを作成でき、Unity Catalog ボリュームとワークスペース ファイルでデータに簡単にアクセスでき、デバッグ用の Databricks Assistant などのワークスペースのみの機能が利用可能で、ノートブックなどの他の機能はすべて利用可能で、Git フォルダーでソース管理を利用できます。

または、ローカル コンピューター上の IDE を使用してカスタム ソリューションを開発し、豊富な開発環境のすべての機能を利用できます。 ローカル開発はより 広範な言語をサポートしているため、デバッグやテストフレームワークなどの言語依存の機能を使用して、大規模なプロジェクトをサポートし、ソース管理に直接アクセスできます。

ツールの使用に関する推奨事項については、「 どの開発者ツールを使用すべきか」を参照してください。

機能

説明

認証と承認

ツール、スクリプト、アプリが Databricks と連携するように認証と承認を構成します。

DatabricksのVisual Studio Code拡張機能

DatabricksVisual Studio Code DatabricksDatabricksからリモート ワークスペースに接続して、 ワークスペースへの接続の簡単な構成と、 リソースを管理するための UI を確認します。

PyCharm Databricksプラグイン

Databricksリモート ワークスペースへの接続を構成し、Databricks から クラスタリングでファイルを実行します。PyCharmこのプラグインは、JetBrains が Databricks と提携して開発および提供しています。

Databricks SDK

DatabricksSDKを直接呼び出すのではなく、 を使用してRESTAPIs との対話を自動化します。

Databricksに接続する

Databricks への接続は、多くの統合とソリューションに必要なコンポーネントであり、Databricks にはさまざまな接続ツールが用意されています。 次の表に、開発環境とプロセスを Databricks ワークスペースとリソースに接続するためのツールを示します。

機能

説明

Databricks Connect

DatabricksIDEsPyCharmIntelliJ IDEA、 、Eclipse 、RStudio 、JupyterLabなどの一般的な統合開発環境()を使用して に接続します。

DatabricksのVisual Studio Code拡張機能

Databricks ワークスペースへの接続の簡単な構成と、Databricks リソースを管理するための UI。

SQL ドライバーとツール

Databricks に接続して、SQL コマンドやスクリプトを実行したり、Databricks とプログラムで対話したり、Python、Go、JavaScript、TypeScript などの一般的な言語で記述されたアプリケーションに Databricks SQL 機能を統合したりできます。

ヒント

その他多くの一般的なサードパーティツールをクラスターやSQLウェアハウスに接続してDatabricksのデータにアクセスすることもできます。技術パートナーを参照してください。

インフラストラクチャとリソースの管理

インフラストラクチャとリソースのプロビジョニングと管理を自動化するために CI/CD パイプラインを構築する開発者とデータ エンジニアは、単純なパイプライン シナリオとより複雑なパイプライン シナリオをサポートする次のツールから選択できます。

ツールの使用に関する推奨事項については、「 どの開発者ツールを使用すべきか」を参照してください。

機能

説明

Databricks CLI

Databricks コマンドライン インターフェイス (CLI) を使用して、Databricks 機能にアクセスします。 CLI は Databricks REST API をラップするため、curl または Postman を使用して REST API 呼び出しを直接送信する代わりに、Databricks CLI を使用して Databricks と対話できます。 ローカルターミナルから CLI を使用するか、ワークスペース Webターミナルから使用します。

Databricksアセットバンドル

Databricks CLI の機能である Databricks Asset Bundle を使用して、データと AI プロジェクトの業界標準の開発、テスト、デプロイのベストプラクティスを使用して、Databricks リソースと CI/CD パイプラインを定義および管理します。

Databricks Terraform プロバイダーDatabricks の Terraform CDKTF

Databricks のインフラストラクチャとリソースを Terraform を使用してプロビジョニングします。

CI/CD ツール

GitHub ActionsJenkinsApache Airflow などの一般的な CI/CD システムとフレームワークを統合します。

共同作業とコードの共有

ワークスペースの他の多くのコラボレーション機能の中でも、Databricks は、ワークスペースでコラボレーションしてコードを共有したい開発者ユーザーを特にサポートします。

機能

説明

UDFs

UDF(ユーザー定義関数)を開発して、コードを再利用および共有します。

Gitフォルダ

Git フォルダーを、Databricks プロジェクト ファイルへのバージョン管理とソース管理のコントリビューションに構成します。

Databricks 開発者コミュニティに参加する

Databricks には活発な開発者コミュニティがあり、次のプログラムとリソースによってサポートされています。