ハイパーパラメーターチューニング
PythonOptuna、Ray Tune、 などのHyperopt ライブラリは、ハイパーパラメータのチューニングを簡素化および自動化し、機械学習モデルの最適なハイパーパラメータのセットを効率的に見つけます。これらのライブラリは複数のインスタンスにまたがって拡張され、最小限の手動オーケストレーションと構成要件でハイパーパラメータをすばやく見つけることができます。
オプツナ
Optunaは、ハイパーシステムのチューニングとモデル選択のための動的な探索空間を簡単に定義できる軽量フレームワークです。 Optuna には、最新の最適化および機械学習アルゴリズムがいくつか含まれています。
Optuna は Joblib と簡単に並列化してワークロードをスケールしたり、Mlflow と統合してトライアル間でハイパーパラメータやメトリックを追跡したりできます。
Optuna を使い始めるには、 「Optuna との連携」を参照してください。
レイチューン
Databricks Runtime MLには、並列コンピューティング処理に使用されるオープンソース フレームワークである Ray が含まれています。 Ray Tune は、Ray に付属し、分散コンピューティングのバックエンドとして Ray を使用するハイパープラットフォーム チューニング ライブラリです。
Databricks で Ray を実行する方法の詳細については、 「Databricks での Ray とは」を参照してください。 Ray Tune の例については、 Ray Tune のドキュメントを参照してください。
Hyperopt
注
Hyperoptのオープンソース バージョンはメンテナンスされなくなりました。
Hyperopt は、次のメジャー DBR ML バージョンで削除されます。 Databricks、単一ノードの最適化にはOptunaを使用するか、非推奨の分散ハイパーパラメーターチューニング機能と同様のエクスペリエンスのためにRayTuneHyperoptを使用することをお勧めします。Databricks での RayTune の使用の詳細については、こちらをご覧ください。
Hyperoptは、分散ハイパースケーリングとモデル選択に使用されるPythonライブラリです。 、 やHyperopt などの分散ML アルゴリズムと、Apache SparkMLlibHorovod MLScikit-Learnや などの単一マシンTensorFlow モデルの両方で動作します。
Hyperopt の使用を開始するには、 「Hyperopt で分散トレーニング アルゴリズムを使用する」を参照してください。
MLlib 自動 MLflow トラッキング
注
MLlib自動MLflow追跡は非推奨であり、 Databricks Runtime 10.4 LTS ML以上を実行するクラスターでは デフォルト によって無効化されています。
代わりに、 mlflow.pyspark.ml.autolog()
を呼び出して機械学習フロー PySpark 機械学習自動ログ を使用し、 Databricks Autologgingを使用して デフォルト によって有効にします。
MLlib自動MLflowトラッキングを使用すると、CrossValidator または TrainValidationSplit を使用するチューニング コードを実行すると、ハイパーパラメータと評価メトリックが自動的にMLflowに記録されます。