Databricksで XGBoost を使用する
この記事では、Databricks で XGBoost を使用したトレーニング 機械学習モデルの例を示します。 Databricks Runtime for Machine Learning には、Python と Scala の両方に対応する XGBoost ライブラリが含まれています。 XGBoost モデルは、個々のマシン上で、または分散方式でトレーニングできます。
XGBoost モデルのシングルノードでのトレーニング
Python xgboost
パッケージを使用してモデルをトレーニングできます。 このパッケージは、単一ノードのワークロードのみをサポートします。 トレーニングする PySpark 機械学習パイプラインと分散トレーニングするイングを利用するには、「 XGBoost モデルの分散トレーニングするイング」を参照してください。
XGBoost モデルの分散トレーニング
XGBoost モデルの分散トレーニングのために、Databricks には xgboost
パッケージに基づく PySpark 推定器が含まれています。 Databricks には、Scala パッケージ xgboost-4j
も含まれています。 詳細とノートブックの例については、以下を参照してください。
xgboost.spark を使用した XGBoost モデルの分散トレーニング (Databricks ランタイム 12.0 機械学習以上)
sparkdl.xgboost を使用した XGBoost モデルの分散トレーニング ( Databricks Runtime 12.0 機械学習以降は非推奨)
XGBoost をDatabricksにインストールする
XGBoost を Databricks Runtime にインストールする必要がある場合、または Databricks Runtime 機械学習にプリインストールされているバージョンとは異なるバージョンを使用する必要がある場合は、次の手順に従ってください。
XGBoost を Databricks Runtime MLにインストールする
XGBoost は Databricks Runtime 機械学習に含まれています。 これらのライブラリは Databricks Runtime パッケージをインストールせずに 機械学習で使用できます。
使用している Databricks Runtime 機械学習バージョンにインストールされている XGBoost のバージョンについては、 リリースノートを参照してください。 Databricks Runtime 機械学習に他の Python バージョンをインストールするには、XGBoost を Databricks PyPI ライブラリとしてインストールします。 次のように指定し、 <xgboost version>
目的のバージョンに置き換えます。
xgboost==<xgboost version>
XGBoost を Databricks Runtimeにインストールする
Python パッケージ: ノートブック セルで次のコマンドを実行します。
%pip install xgboost
特定のバージョンをインストールするには、 <xgboost version>
目的のバージョンに置き換えます。
%pip install xgboost==<xgboost version>
Scala/Java パッケージ: Spark パッケージ名が
xgboost-linux64
の Databricks ライブラリ としてインストールします。