ハイパーパラメーターチューニング

PythonOptuna、Ray Tune、などのHyperopt ライブラリは、ハイパーパラメータのチューニングを簡素化および自動化し、機械学習モデルの最適なハイパーパラメータのセットを効率的に見つけます。これらのライブラリは複数のインスタンスにまたがって拡張され、最小限の手動オーケストレーションと構成要件でハイパーパラメータをすばやく見つけることができます。

オプツナ

Optunaは、ハイパーシステムのチューニングとモデル選択のための動的な探索空間を簡単に定義できる軽量フレームワークです。 Optuna には、最新の最適化および機械学習アルゴリズムがいくつか含まれています。

Optuna は Joblib と簡単に並列化してワークロードをスケールしたり、Mlflow と統合してトライアル間でハイパーパラメータやメトリックを追跡したりできます。

Optuna を使い始めるには、「Optuna との連携」を参照してください。

レイチューン

Databricks Runtime MLには、並列コンピューティング処理に使用されるオープンソースフレームワークである Ray が含まれています。 Ray Tune は、Ray に付属し、分散コンピューティングのバックエンドとして Ray を使用するハイパープラットフォームチューニングライブラリです。

Databricks で Ray を実行する方法の詳細については、「Databricks での Ray とは」を参照してください。 Ray Tune の例については、 Ray Tune のドキュメントを参照してください。

Hyperopt

注

Hyperoptのオープンソースバージョンはメンテナンスされなくなりました。

Hyperopt は、次のメジャー DBR ML バージョンで削除されます。 Databricks、単一ノードの最適化にはOptunaを使用するか、非推奨の分散ハイパーパラメーターチューニング機能と同様のエクスペリエンスのためにRayTuneHyperoptを使用することをお勧めします。Databricks での RayTune の使用の詳細については、こちらをご覧ください。

Hyperoptは、分散ハイパースケーリングとモデル選択に使用されるPythonライブラリです。、やHyperopt などの分散ML アルゴリズムと、Apache SparkMLlibHorovod MLScikit-Learnやなどの単一マシンTensorFlow モデルの両方で動作します。

Hyperopt の使用を開始するには、「Hyperopt で分散トレーニングアルゴリズムを使用する」を参照してください。

MLlib 自動 MLflow トラッキング

注

MLlib自動MLflow追跡は非推奨であり、 Databricks Runtime 10.4 LTS ML以上を実行するクラスターではデフォルトによって無効化されています。

代わりに、 mlflow.pyspark.ml.autolog()を呼び出して機械学習フロー PySpark 機械学習自動ログを使用し、 Databricks Autologgingを使用してデフォルトによって有効にします。

MLlib自動MLflowトラッキングを使用すると、CrossValidator または TrainValidationSplit を使用するチューニングコードを実行すると、ハイパーパラメータと評価メトリックが自動的にMLflowに記録されます。