Usar XGBoost em Databricks
Este artigo fornece exemplos de modelo de treinamento de machine learning usando XGBoost em Databricks. O Databricks Runtime for Machine Learning inclui bibliotecas XGBoost para Python e Scala. Você pode ensinar modelos XGBoost em uma máquina individual ou de forma distribuída.
ensinar modelos XGBoost em um único nó
Você pode ensinar modelos usando o pacote Python xgboost
. Este pacote suporta apenas cargas de trabalho de nó único. Para ensinar os ML pipelines e aproveitar as vantagens do ensino distribuído, consulte Ensino distribuído de modelos XGBoost.
Treinamento distribuído de modelos XGBoost
Para treinamento distribuído de modelos XGBoost, Databricks inclui estimadores PySpark com base no pacote xgboost
. Databricks também inclui o pacote Scala xgboost-4j
. Para obter detalhes e exemplo Notebook, consulte o seguinte:
Treinamento distribuído de modelos XGBoost usando xgboost.spark (Databricks Runtime 12.0 MLe acima)
Treinamento distribuído de modelos XGBoost usando sparkdl.xgboost (obsoleto a partir do Databricks Runtime 12.0 ML)
Instale o XGBoost no Databricks
Se você precisar instalar o XGBoost no Databricks Runtime ou usar uma versão diferente daquela pré-instalada com o Databricks Runtime ML, siga estas instruções.
Instale o XGBoost no Databricks Runtime ML
O XGBoost está incluído no Databricks Runtime ML. Você pode usar essas bibliotecas no Databricks Runtime ML sem instalar nenhum pacote.
Para a versão do XGBoost instalada na versão do Databricks Runtime ML que você está usando, consulte as notas sobre a versão. Para instalar outras versões do Python no Databricks Runtime ML, instale o XGBoost como uma biblioteca PyPI do Databricks. Especifique-o conforme a seguir e substitua <xgboost version>
pela versão desejada.
xgboost==<xgboost version>
Instale o XGBoost no Databricks Runtime
Pacote Python: Execute o seguinte comando em uma célula Notebook :
%pip install xgboost
Para instalar uma versão específica, substitua <xgboost version>
pela versão desejada:
%pip install xgboost==<xgboost version>
Pacotes Scala/Java: instale como uma biblioteca Databricks com o nome do pacote Spark
xgboost-linux64
.