MLflowを使用したモデル開発のトラッキング

MLflow トラッキングを使用すると、機械学習モデルまたはディープラーニングモデルのトレーニングに関連するノートブックとトレーニングデータセット、パラメーター、メトリクス、タグ、アーティファクトをログに記録できます。 MLflow の使用を開始するノートブックの例については、チュートリアル: Databricks のエンドツーエンド ML モデルを参照してください。

エクスペリメントとランを使用したMLflowトラッキング

モデル開発プロセスは反復的であり、モデルの開発と最適化の際に作業をトラッキングするのは難しい場合があります。 Databricks では、 MLflowトラッキングを使用して、試したパラメーター設定や組み合わせ、モデルのパフォーマンスへの影響など、モデル開発プロセスをトラッキングできます。

MLflow トラッキングでは、 エクスペリメント とランを使用して、機械学習とディープラーニングのモデル開発をログに記録し、追跡します。ランは、モデルコードの 1 回の処理実行です。 MLflow ランの過程で、パラメーターと結果を記録済みモデルを作成できます。エクスペリメントは、関連するランのコレクションです。エクスペリメントでは、ランを比較およびフィルター処理して、モデルのパフォーマンスと、そのパフォーマンスがパラメーター設定や入力データなどにどのように依存するかを理解できます。

注

2024 年 3 月 27 日より、 MLflow 、既存および新規のすべてのランに対するパラメーター、タグ、メトリックステップの合計数と、既存および新規のすべての拡張に対するランの合計数にクォータ制限が課せられます。リソース制限を参照してください。エクスペリメントあたりラン数の拡張クォータに達した場合、Databricks のPythonのラン削除APIを使用して不要になったランを削除することをお勧めします。他のクォータ制限に達した場合、Databricks では、制限内に抑えるためにログ記録戦略を調整することをお勧めします。この制限を増やす必要がある場合は、ユースケースの簡単な説明、提案された緩和策が機能しない理由、および要求する新しい制限を添えて、Databricks アカウントチームに連絡してください。

MLflow トラッキング API

MLflowトラッキングAPI は、モデルのランからパラメーター、メトリクス、タグ、および成果物をログに記録します。トラッキングAPI は、MLflow トラッキングサーバーと通信します。 Databricks を使用すると、Databricks でホストされているトラッキングサーバーがデータをログに記録します。ホストされている MLflow トラッキングサーバーには、Python、Java、および RのAPIがあります。

MLflow は Databricks Runtime ML クラスターにプリインストールされています。 Databricks RuntimeクラスターでMLflowを使用するには、mlflow ライブラリをインストールする必要があります。ライブラリをクラスターにインストールする手順については、クラスタにライブラリをインストールするを参照してください。

MLflowのランが記録される場所

すべての MLflowランはアクティブなエクスペリメントに記録され、次のいずれかの方法で設定できます。

mlflow.set_experiment() コマンドを使用します。
mlflow.start_run() コマンドで experiment_id パラメーターを使用します。
MLflow 環境変数 MLFLOW_EXPERIMENT_NAMEあるいはMLFLOW_EXPERIMENT_IDのいずれかを設定します。

アクティブなエクスペリメントが設定されていない場合、ランはノートブックのエクスペリメントに記録されます。

エクスペリメントを実行しているワークスペース以外のワークスペースで、リモートでホストされている MLflow Tracking サーバーにエクスペリメントの結果を記録するには、 mlflow.set_tracking_uri()を使用してリモートワークスペースを参照するようにトラッキング URI を設定し、 mlflow.set_experiment()を使用してリモートワークスペース内のエクスペリメントへのパスを設定します。

mlflow.set_tracking_uri(<uri-of-remote-workspace>)
mlflow.set_experiment("path to experiment in remote workspace")

エクスペリメントをローカルで実行していて、エクスペリメントの結果を Databricks MLflow Tracking サーバーに記録する場合は、Databricks ワークスペースインスタンス (DATABRICKS_HOST) と Databricks パーソナルアクセストークン (DATABRICKS_TOKEN) を指定します。次に、 mlflow.set_tracking_uri()を使用してワークスペースを参照するように追跡 URI を設定し、 mlflow.set_experiment()を使用してエクスペリメントへのパスを設定できます。 DATABRICKS_HOST 環境変数と DATABRICKS_TOKEN 環境変数の値を見つける場所の詳細については、Databricksパーソナルアクセストークン認証の実行を参照してください。

次のコード例は、これらの値の設定を示しています。

os.environ["DATABRICKS_HOST"] = "https://dbc-1234567890123456.cloud.databricks.com" # set to your server URI
os.environ["DATABRICKS_TOKEN"] = "dapixxxxxxxxxxxxx"

mlflow.set_tracking_uri("databricks")
mlflow.set_experiment("/your-experiment")

エクスペリメントへのランの記録

MLflowは多くの機械学習フレームワークやディープラーニングフレームワークで書かれたトレーニングコードを自動的にログに記録できます。これは、MLflowトラッキングの利用を開始する最も簡単な方法です。ノートブックの例を参照してください。

ログに記録するパラメーターとメトリクスをより詳細に制御したり、 CSV ファイルやプロットなどの追加のアーティファクトをログに記録したりするには、 MLflow logging APIを使用します。ノートブックの例を参照してください。

自動ログ記録を使用してモデル開発を追跡する

このノートブックの例は、 scikit-learn で自動ログを使用する方法を示しています。他の Python ライブラリとの自動ログ記録に関する情報については、MLflow 自動ログ記録のドキュメントを参照してください。

MLflow 自動ログ記録 Python ノートブック

ノートブックを新しいタブで開く

ログ API を使用してモデル開発をトラッキングする

このノートブック例では、 Python ロギング API の使用方法を示します。 MLflow には、REST、R、Java APIsもあります。

MLflow ログ API Python ノートブック

ノートブックを新しいタブで開く

ワークスペースエクスペリメントへのランの記録

デフォルトでは、 Databricks ノートブックでモデルをトレーニングすると、実行はノートブックエクスペリメントに記録されます。ノートブック内で開始された MLflow 実行のみをノートブックエクスペリメントに記録できます。

任意のノートブックまたはAPIから起動されたMLflowランは、ワークスペースエクスペリメントにログに記録できます。ワークスペースエクスペリメントにランを記録するには、ノートブックまたは API 呼び出しで次のようなコードを使用します。

experiment_name = "/Shared/name_of_experiment/"
mlflow.set_experiment(experiment_name)

ワークスペースエクスペリメントを作成する手順については、ワークスペースエクスペリメントを作成するを参照してください。ログ記録された実行の表示に関する情報については、ノートブックエクスペリメントの参照およびワークスペースエクスペリメントの参照を参照してください。

Databricks外部からのMLflowトラッキングサーバーへのアクセス

また、MLflow CLI などを使用して、Databricks の外部からトラッキングサーバーへの書き込みと追跡サーバーからの読み取りを行うこともできます。 Databricks の外部から MLflowトラッキングサーバーにアクセスするを参照してください。

MLflowのランをプログラムを使って分析する

MLflow 実行データには、次の 2 つの DataFrame APIsを使用してプログラムでアクセスできます。

MLflow Python クライアント search_runs API は、pandas DataFrameを返します。
MLflow エクスペリメントデータソースは、Apache Spark DataFrame を返します。

この例では、MLflow Python クライアントを使用して、時間の経過に伴う評価メトリクスの変化を視覚化し、特定のユーザーによって開始された実行数を追跡し、すべてのユーザーの実行の合計数を測定するダッシュボードを構築する方法を示します。

MLflow 検索 API を使用したダッシュボードの構築

モデルトレーニングメトリクスと出力が異なる理由

機械学習で使用されるアルゴリズムの多くは、アルゴリズム自体の中にサンプリングやランダムな初期条件などのランダムな要素を持っています。これらのアルゴリズムのいずれかを使用してモデルをトレーニングすると、同じ条件で実行を開始した場合でも、各実行で結果が同じにならない場合があります。多くのライブラリは、これらの確率的要素の初期条件を修正するためのシードメカニズムを提供します。ただし、シードによって制御されない他の変動源があるかもしれません。一部のアルゴリズムはデータの順序に敏感であり、分散機械学習アルゴリズムもデータのパーティション分割方法の影響を受ける可能性があります。一般に、この変動は重要ではなく、モデル開発プロセスでは重要ではありません。

順序とパーティション分割の違いによって生じる変動を制御するには、PySpark 関数の repartition と sortWithinPartitionsを使用します。

MLflow トラッキングの例

次のノートブックは、MLflow を使用してモデル開発を追跡する方法を示しています。