Databricks で XGBoost を使用する
この記事では、Databricks で XGBoost を使用したトレーニング 機械学習モデルの例を示します。 Databricks Runtime for Machine Learning には、Python と Scala の両方に対応する XGBoost ライブラリが含まれています。 XGBoost モデルは、個々のマシン上で、または分散方式でトレーニングできます。
トレーニングする XGBoost モデルを単一ノード で実行
Python xgboost
パッケージを使用してモデルをトレーニングできます。 このパッケージは、単一ノードのワークロードのみをサポートします。 トレーニングする PySpark 機械学習パイプラインと分散トレーニングするイングを利用するには、「 XGBoost モデルの分散トレーニングするイング」を参照してください。
XGBoost モデルの 分散トレーニング
XGBoost モデルの分散トレーニングのために、Databricks には xgboost
パッケージに基づく PySpark 推定器が含まれています。 Databricks には、Scala パッケージ xgboost-4j
も含まれています。 詳細とノートブックの例については、以下を参照してください。
xgboost.spark を使用した XGBoost モデルの分散トレーニング (Databricks ランタイム 12.0 機械学習以上)
sparkdl.xgboost を使用した XGBoost モデルの分散トレーニング ( Databricks Runtime 12.0 機械学習以降は非推奨)
XGBoost を Databricks にインストールする
XGBoost を Databricks Runtime にインストールする必要がある場合、または Databricks Runtime 機械学習にプリインストールされているバージョンとは異なるバージョンを使用する必要がある場合は、次の手順に従ってください。
XGBoost を Databricks Runtime 機械学習 にインストールする
XGBoost は Databricks Runtime 機械学習に含まれています。 これらのライブラリは Databricks Runtime パッケージをインストールせずに 機械学習で使用できます。
使用している Databricks Runtime 機械学習バージョンにインストールされている XGBoost のバージョンについては、 リリースノートを参照してください。 Databricks Runtime 機械学習に他の Python バージョンをインストールするには、XGBoost を Databricks PyPI ライブラリとしてインストールします。 次のように指定し、 <xgboost version>
目的のバージョンに置き換えます。
xgboost==<xgboost version>
XGBoost を Databricks Runtime にインストールする
Python パッケージ: ノートブック セルで次のコマンドを実行します。
%pip install xgboost
特定のバージョンをインストールするには、 <xgboost version>
目的のバージョンに置き換えます。
%pip install xgboost==<xgboost version>
Scala/Java パッケージ: Spark パッケージ名が
xgboost-linux64
の Databricks ライブラリ としてインストールします。