Ajuste de hiperparâmetros

Python biblioteca como Optuna, Ray Tune e Hyperopt simplificam e automatizam o ajuste de hiperparâmetros para encontrar com eficiência um conjunto ideal de hiperparâmetros para o modelo do machine learning. Essas bibliotecas escalonam em vários computadores para encontrar rapidamente hiperparâmetros com requisitos mínimos de orquestração manual e configuração.

Optuna

O Optuna é uma estrutura leve que facilita a definição de um espaço de pesquisa dinâmico para ajuste de hiperparâmetros e seleção de modelos. O Optuna inclui alguns dos mais recentes algoritmos de otimização e machine learning.

O Optuna pode ser facilmente paralelizado com o Joblib para escalonar as cargas de trabalho e integrado ao Mlflow para rastrear hiperparâmetros e métricas entre os testes.

Para começar a usar o Optuna, consulte Ajuste de hiperparâmetros com o Optuna.

Ray Tune

Databricks Runtime ML inclui o Ray, uma estrutura de código aberto usada para processamento paralelo do compute. O Ray Tune é uma biblioteca de ajuste de hiperparâmetros que vem com o Ray e usa o Ray como backend para computação distribuída.

Para obter detalhes sobre como executar o Ray em Databricks, consulte O que é o Ray em Databricks? Para obter exemplos do Ray Tune, consulte a documentação do Ray Tune.

Hyperopt

Observação

A versão de código aberto do Hyperopt não está mais sendo mantida.

Hyperopt não está mais pré-instalado em Databricks Runtime ML 17.0 e acima. A Databricks recomenda o uso do Optuna para obter uma experiência semelhante e acesso a algoritmos de ajuste de hiperparâmetros mais atualizados.

Hyperopt é uma biblioteca Python usada para ajuste de hiperparâmetros distribuídos e seleção de modelos. Hyperopt Funciona com algoritmos ML distribuídos, como Apache Spark MLlib e Horovod, bem como com modelos ML de máquina única, como Scikit-Learn e TensorFlow.

Para começar a usar o Hyperopt, consulte Usar algoritmos de treinamento distribuído com o Hyperopt.

MLlib automatizado MLflow acompanhamento

Observação

MLlib O acompanhamento automatizado MLflow está obsoleto e desativado por default em clusters que executa Databricks Runtime 10.4 LTS ML e acima.

Em vez disso, use o log automático do MLflow PySpark ML chamando mlflow.pyspark.ml.autolog(), que é habilitado por default com Databricks Autologging.

Com o MLlib MLflow acompanhamento automatizado, quando o senhor executa o código de ajuste que usa o CrossValidator ou o TrainValidationSplit. Os hiperparâmetros e as métricas de avaliação são registrados automaticamente em MLflow.