Usar XGBoost em Databricks

Este artigo fornece exemplos de modelo de treinamento de machine learning usando XGBoost em Databricks. O Databricks Runtime for Machine Learning inclui bibliotecas XGBoost para Python e Scala. Você pode ensinar modelos XGBoost em uma máquina individual ou de forma distribuída.

ensinar modelos XGBoost em um único nó

Você pode ensinar modelos usando o pacote Python xgboost . Este pacote suporta apenas cargas de trabalho de nó único. Para ensinar os ML pipelines e aproveitar as vantagens do ensino distribuído, consulte Ensino distribuído de modelos XGBoost.

NotebookXGBoost Python

Abra o bloco de anotações em outra guia

Treinamento distribuído de modelos XGBoost

Para treinamento distribuído de modelos XGBoost, Databricks inclui estimadores PySpark com base no pacote xgboost . Databricks também inclui o pacote Scala xgboost-4j. Para obter detalhes e exemplo Notebook, consulte o seguinte:

Instale o XGBoost no Databricks

Se você precisar instalar o XGBoost no Databricks Runtime ou usar uma versão diferente daquela pré-instalada com o Databricks Runtime ML, siga estas instruções.

Instale o XGBoost no Databricks Runtime ML

O XGBoost está incluído no Databricks Runtime ML. Você pode usar essas bibliotecas no Databricks Runtime ML sem instalar nenhum pacote.

Para a versão do XGBoost instalada na versão do Databricks Runtime ML que você está usando, consulte as notas sobre a versão. Para instalar outras versões do Python no Databricks Runtime ML, instale o XGBoost como uma biblioteca PyPI do Databricks. Especifique-o conforme a seguir e substitua <xgboost version> pela versão desejada.

xgboost==<xgboost version>

Instale o XGBoost no Databricks Runtime

  • Pacote Python: Execute o seguinte comando em uma célula Notebook :

    %pip install xgboost
    

Para instalar uma versão específica, substitua <xgboost version> pela versão desejada:

  %pip install xgboost==<xgboost version>