Ajuste de hiperparâmetros
Python biblioteca como Optuna, Ray Tune e Hyperopt simplificam e automatizam o ajuste de hiperparâmetros para encontrar com eficiência um conjunto ideal de hiperparâmetros para o modelo do machine learning. Essas bibliotecas escalonam em vários computadores para encontrar rapidamente hiperparâmetros com requisitos mínimos de orquestração manual e configuração.
Optuna
O Optuna é uma estrutura leve que facilita a definição de um espaço de pesquisa dinâmico para ajuste de hiperparâmetros e seleção de modelos. O Optuna inclui alguns dos mais recentes algoritmos de otimização e machine learning.
O Optuna pode ser facilmente paralelizado com o Joblib para escalonar as cargas de trabalho e integrado ao Mlflow para rastrear hiperparâmetros e métricas entre os testes.
Para começar a usar o Optuna, consulte Ajuste de hiperparâmetros com o Optuna.
Ray Tune
Databricks Runtime ML inclui o Ray, uma estrutura de código aberto usada para processamento paralelo do compute. O Ray Tune é uma biblioteca de ajuste de hiperparâmetros que vem com o Ray e usa o Ray como backend para computação distribuída.
Para obter detalhes sobre como executar o Ray em Databricks, consulte O que é o Ray em Databricks? Para obter exemplos do Ray Tune, consulte a documentação do Ray Tune.
Hyperopt
Observação
A versão de código aberto do Hyperopt não está mais sendo mantida.
O Hyperopt será removido na próxima versão principal do DBR ML. A Databricks recomenda o uso do Optuna para obter uma experiência semelhante e acesso a algoritmos de ajuste de hiperparâmetros mais atualizados.
Hyperopt é uma biblioteca Python usada para ajuste de hiperparâmetros distribuídos e seleção de modelos. Hyperopt Funciona com algoritmos ML distribuídos, como Apache Spark MLlib e Horovod, bem como com modelos ML de máquina única, como Scikit-Learn e TensorFlow.
Para começar a usar o Hyperopt, consulte Usar algoritmos de treinamento distribuído com o Hyperopt.
MLlib automatizado MLflow acompanhamento
Observação
MLlib O acompanhamento automatizado MLflow está obsoleto e desativado por default em clusters que executa Databricks Runtime 10.4 LTS ML e acima.
Em vez disso, use o log automático do MLflow PySpark ML chamando mlflow.pyspark.ml.autolog()
, que é habilitado por default com Databricks Autologging.
Com o MLlib MLflow acompanhamento automatizado, quando o senhor executa o código de ajuste que usa o CrossValidator ou o TrainValidationSplit. Os hiperparâmetros e as métricas de avaliação são registrados automaticamente em MLflow.