Python開発者のためのDatabricks

DatabricksPythonこのセクションでは、言語を使用してでノートブックとジョブを開発するためのガイド、一般的なワークフローとタスクのチュートリアル、APIs 、ライブラリ、ツールへのリンクを提供します。

利用を開始するには以下の手順を踏みます。

コードのインポート: ファイルまたは Git リポジトリから独自のコードをインポートするか、以下にリストされているチュートリアルを試してください。 Databricks では、インタラクティブな Databricks ノートブックを使用して学習することをお勧めします。
クラスターでコードを実行する: 独自のクラスターを作成するか、共有クラスターを使用するためのアクセス許可があることを確認します。ノートブックをクラスターにアタッチし、ノートブックを実行します。
その後、次の操作を実行できます。
- Apache Spark を使用した大規模なデータセットの操作
- ビジュアライゼーションの追加
- ジョブとしてワークロードを自動化する
- 機械学習を使用してデータを分析する
- IDE で開発する

チュートリアル

以下のチュートリアルでは、一般的なワークフローについて学習するためのサンプルコードとノートブックを提供します。ノートブックの例をワークスペースにインポートする手順については、「ノートブックのインポート」を参照してください。

データエンジニアリング

チュートリアル: Apache Spark DataFramesを使用してデータをロードおよび変換するでは、データ準備とアナリティクスのためのApache Spark DataFramesについて学習するのに役立つチュートリアルが提供されています。
チュートリアル：Delta Lake
チュートリアル：最初のDelta Live Tablesパイプラインを実行する

データサイエンスと機械学習

データの準備と分析のためのApache Spark DataFramesの使用を開始する: アナリティクス: Apache Spark DataFramesを使用してデータを読み込み、変換する
チュートリアル: Databricks 上のエンドツーエンドの ML モデル。その他の例については、「チュートリアル: AI と機械学習の概要」を参照してください。
AutoML を使用すると、独自のデータセットで機械学習モデルの開発をすぐに開始できます。そのグラスボックス型アプローチでは、完全な機械学習ワークフローを備えたノートブックが生成され、クローン作成、変更、再実行が可能です。
Unity Catalogでモデルのライフサイクルを管理する
チュートリアル：Databricks上のエンドツーエンドのMLモデル

Pythonノートブックでデバッグを行う

この例は、Python でデバッガー (pdb)Databricks を使用する方法を示しています。Python デバッガーを使用するには、Databricks Runtime 11.3 LTS 以上を実行している必要があります。

Databricks Runtime 12.2 LTS 以降では、変数エクスプローラーを使用して、ノートブック UI で Python 変数の現在の値を追跡できます。変数エクスプローラーを使用して、ブレークポイントをステップスルーするときにPython変数の値を観察できます。

Pythonデバッガーのサンプルノートブック

ノートブックを新しいタブで開く

注

breakpoint() はIPythonではサポートされていないため、Databricksノートブックでは機能しません。breakpoint()の代わりにimport pdb; pdb.set_trace() を使うこともできます。

Python API

Databricks の外部で実行される Python コードは通常、Databricks 内で実行でき、その逆も可能です。既存のコードがある場合は、それを Databricks にインポートするだけで開始できます。詳細については、以下の「ノートブックおよび Databricks Git フォルダーを使用したコードの管理」を参照してください。

Databricks は、単一マシンと分散 Python ワークロードの両方を実行できます。単一マシンコンピューティングの場合、 Python APIsとライブラリを通常どおり使用できます。たとえば、 PandasとScikit-Learn 「そのまま動作」します。分散 Python ワークロード向けに、Databricks は PySpark と PandasAPI on Spark という 2 つの一般的な API をすぐに使用できるように提供しています。

PySpark API

PySparkは、Apache Spark の公式 Python API であり、Python と Apache Spark のパワーを組み合わせたものです。 PySpark は PandasAPI on Spark よりも柔軟性が高く、Spark SQL や構造化ストリーミング、MLlib 、GraphX などのデータサイエンスおよびエンジニアリング機能に対する広範なサポートと機能を提供します。

Pandas API on Spark

注

Koalas オープンソースプロジェクトでは、Spark で Pandas API に切り替えることを推奨しています。Spark 上の Pandas API は、 Databricks Runtime 10.0 (EoS) 以降を実行するクラスターで使用できます。 Databricks Runtime 9.1 LTS 以下を実行するクラスターの場合は、代わりに Koalas を使用します。

pandasは、データの分析や操作のためにデータサイエンティストが一般的に使用するPythonパッケージです。ただしpandasでは、ビッグデータに合わせたスケールアウトはされません。Pandas API on Sparkでは、Apache Sparkで動作するpandasと同等のAPIを提供することで、この問題を解決します。このオープンソースAPIは、pandasには詳しいがApache Sparkには詳しくないデータサイエンティストにとって理想的な選択肢になります。

ノートブックと Databricks Git フォルダーを使用してコードを管理する

Databricks ノートブックは Python をサポートしています。これらのノートブックは、Jupyter と同様の機能を提供しますが、ビッグデータを使用した組み込み visualization、デバッグとパフォーマンスモニタリングのための Apache Spark 統合、機械学習エクスペリメントを追跡するための MLflow 統合などの追加機能が追加されています。ノートブックをインポートして開始します。クラスターにアクセスできるようになったら、ノートブックをクラスターにアタッチしてノートブックを実行できます。

ヒント

ノートブックの状態をリセットするには、iPython カーネルを再起動します。 Jupyter ユーザーの場合、Jupyter の "カーネルの再起動" オプションは、Databricks でのノートブックのデタッチと再アタッチに相当します。 Pythonノートブックでカーネルを再起動するには、ノートブックツールバーのコンピュートセレクタをクリックし、リスト内の添付のクラスタリングまたはSQLウェアハウスにカーソルを合わせると、サイドメニューが表示されます。[デタッチして再アタッチ] を選択します。これにより、ノートブックがクラスタリングから切り離されて再アタッチされ、 Python プロセスが再開されます。

Databricks Git フォルダーを使用すると、ユーザーはノートブックやその他のファイルを Git リポジトリと同期できます。 Databricks Git フォルダーは、コードのバージョン管理とコラボレーションに役立ち、Databricks へのコードの完全なリポジトリのインポート、過去のノートブックバージョンの表示、IDE 開発との統合を簡略化できます。まず、リモート Git リポジトリをクローンします。その後、リポジトリクローンを使用してノートブックを開くか作成し、ノートブックをクラスターにアタッチして、ノートブックを実行できます。

クラスターとライブラリ

Databricks コンピュートは、単一ノードクラスターから大規模クラスターまで、あらゆるサイズのクラスターのコンピュート管理を提供します。クラスターのハードウェアとライブラリは、必要に応じてカスタマイズできます。 data scientists は通常、クラスターを作成するか、既存の共有クラスターを使用して作業を開始します。クラスターにアクセスできるようになったら、ノートブックをクラスターにアタッチしたり、クラスターでジョブを実行したりできます。

単一ノードのみを必要とする小規模なワークロードの場合、データサイエンティストはコスト削減のために単一ノードのコンピュートを使用できます。
詳細なヒントについては、「コンピュート構成の推奨事項」を参照してください
管理者は、クラスターの作成を簡素化するため、指針となるクラスターポリシーを設定できます。

DatabricksクラスターはDatabricks Runtimeを使用します。Databricks Runtimeは、Apache Spark、Delta Lake、pandasなど、すぐに使える多くの人気ライブラリを提供しています。追加のサードパーティまたはカスタムPythonライブラリをインストールして、ノートブックやジョブで使用することもできます。

Databricks Runtimeリリースノートのバージョンと互換性のデフォルトライブラリから始めます。機械学習ワークロードには、機械学習にDatabricks Runtime を使用します。プレインストールされているライブラリの完全な一覧については、「 Databricks Runtime リリースノートのバージョンと互換性」を参照してください。
ノートブックスコープの Python ライブラリを使用して環境をカスタマイズすると、PyPI や他のリポジトリのライブラリを使用してノートブックまたはジョブ環境を変更できます。%pip install my_library magic コマンドは、現在アタッチされているクラスタリング内のすべてのノードにmy_libraryをインストールしますが、標準アクセスモードのコンピュート上の他のワークロードに干渉することはありません。
必要に応じて、Python以外のライブラリをクラスターライブラリとしてインストールします。
詳細については、「ライブラリ」を参照してください。

ビジュアライゼーション

Databricks Python ノートブックでは、さまざまな種類のビジュアライゼーションが組み込まれています。従来のビジュアライゼーションを使用することもできます。

サードパーティのライブラリを使用してデータを視覚化することもできます。一部はDatabricks Runtimeにプリインストールされていますが、カスタムライブラリをインストールすることもできます。人気のあるライブラリは以下のとおりです。

ジョブ

Python ワークロードは、Databricks でスケジュールされたジョブまたはトリガーされたジョブとして自動化できます。ジョブは、ノートブック、 Python スクリプト、および Python wheel ファイルを実行できます。

Databricks UI または Databricks REST API を使用してジョブを作成および更新します。
Databricks Python SDK を使用すると、プログラムでジョブを作成、編集、削除できます。
Databricks CLI には、ジョブを自動化するための便利なコマンドラインインターフェイスが用意されています。

ヒント

ノートブックの代わりにPythonスクリプトをスケジュールするには、ジョブ作成リクエストの本文のtasksの下にあるspark_python_taskフィールドを使用します。

機械学習

Databricks は、表形式データに対する従来の ML、コンピュータービジョンと自然言語処理のためのディープラーニング、レコメンデーションシステム、グラフアナリティクスなど、さまざまな機械学習 (ML) ワークロードをサポートしています。 Databricks での機械学習に関する一般的な情報については、「 Databricks での AI と機械学習」を参照してください。

ML アルゴリズムの場合、 Scikit-Learn、TensorFlow、Keras、PyTorch、Apache Spark MLlib、XGBoost などの一般的な Python ツールを含む、Databricks Runtime for Machine Learning にプレインストールされたライブラリを使用できます。カスタムライブラリをインストールすることもできます。

機械学習の操作 (MLOps) のために、 Databricks はオープンソースライブラリのマネージドサービスを提供しています MLflow. MLflow Tracking を使用すると、モデルの開発を記録し、モデルを再利用可能な形式で保存できます。このMLflow Model Registryを使用して、本番運用に向けたモデルのプロモーションを管理および自動化できます。ジョブを使用すると、モデルをバッチジョブおよびストリーミングジョブとしてホスティングできます。詳細情報と例については、MLflow genAI エージェントとML モデルのライフサイクルに関するまたはMLflowPythonAPI ドキュメントを参照してください。

一般的な機械学習ワークロードの入門については、以下のページを参照してください。

scikit-learnのトレーニングとMLflowによるトラッキング：10分のチュートリアル：scikit-learnを使用したDatabricksでの機械学習
ディープラーニングモデルのトレーニング：ディープラーニング
ハイパーテスト: Hyperoptハイパーを並列化する
Graph アナリティクス: でを使用する方法GraphFramesDatabricks

IDE、開発者ツール、SDK

Databricksノートブック内でPythonコードを開発するだけでなく、PyCharm、Jupyter、Visual Studio Codeなどの統合開発環境（IDE）を使用して外部で開発することもできます。外部開発環境とDatabricksの間で作業を同期するには、いくつかのオプションがあります。

コード: Git を使用してコードを同期できます。「Databricks Git フォルダーの Git 統合」を参照してください。
ライブラリとジョブ: ライブラリ ( Python wheel ファイルなど) を外部で作成し、 Databricksにアップロードできます。これらのライブラリは、Databricks ノートブック内にインポートすることも、ジョブの作成に使用することもできます。「ライブラリ」と「Databricks のオーケストレーションの概要」を参照してください。
リモートマシン実行: ローカル IDE からコードを実行して、インタラクティブな開発とテストを行うことができます。 IDE は Databricks と通信して、Databricks クラスター上で Apache Spark と大規模な計算を実行できます。 Databricks Connect を参照してください。

Databricks には、 Python SDK を含む一連の SDK が用意されており、自動化と外部ツールとの統合をサポートしています。 Databricks SDK を使用して、クラスターとライブラリ、コードとその他のワークスペースオブジェクト、ワークロードとジョブなどのリソースを管理できます。 Databricks SDK を参照してください。

IDEs、開発者ツール、SDK の詳細については、「ローカル開発ツール」を参照してください。

追加のリソース

Databricks Academyでは、多くのトピックについて、自分のペースで進められるインストラクター主導のコースを提供しています。
Databricks Labs には、 pytest プラグインや pylint プラグインなど、Databricks での Python 開発用のツールが用意されています。
PySpark と Pandas の間の相互運用性をサポートする機能には、次のものがあります。
Python と SQL のデータベース接続ツールには、次のものがあります。
- Databricks SQL Connector for Pythonを使用すると、Pythonコードを使用してDatabricksリソースでSQLコマンドを実行できます。
- pyodbc を使用すると、ローカルの Python コードから ODBC を介して Databricks レイクハウスに格納されているデータに接続できます。

Python ワークロードを Databricks に移行するための FAQ とヒントについては、Databricks ナレッジベースを参照してください