AutoMLとは

Databricks AutoML は、最適なアルゴリズムとハイパーパラメータ構成を自動的に検出することで、データセットに機械学習を適用するプロセスを簡素化します。

データセットを提供し、機械学習の問題の種類を指定すると、AutoML は次のことを実行します。

データをクリーニングして準備します。
複数のアルゴリズムにわたって分散モデルのトレーニングとハイパーブリッジの調整を調整します。
Scikit-Learn 、xgboost、 LightGBM 、 Prophet 、 ARIMAの OSS 評価アルゴリズムを使用して最適なモデルを見つけます。
結果を表示します。 AutoML は各トライアルのソースコードノートブックも生成するため、必要に応じてコードを確認、再現、変更できます。

ローコード UI または PythonAPIを介してAutoML 拡張機能を開始します。

要件

Databricks Runtime 9.1 ML以降。一般提供 (GA) バージョンの場合は、 Databricks Runtime 10.4 LTS ML以降。
- 時系列予測の場合は、Databricks Runtime 10.0 ML以降。
- Databricks Runtime 9.1 LTS ML 以降では、AutoML はdatabricks-automl-runtimeパッケージに依存します。このパッケージには、AutoML の外部で役立つコンポーネントが含まれており、AutoML トレーニングによって生成されるノートブックの簡素化にも役立ちます。 databricks-automl-runtime PyPIで利用可能です。
Databricks Runtime for Machine Learning にプレインストールされているライブラリ以外の追加ライブラリをクラスターにインストールしないでください。
- 既存のライブラリのバージョンに変更を加えると（削除、アップグレード、ダウングレード）、互換性がないため、実行に失敗します。
AutoML は共有アクセスモードクラスターと互換性がありません。
AutoML で Unity Catalog を使用するには、クラスターのアクセスモードが [シングルユーザー] である必要があり、クラスターの指定された シングルユーザーである必要があります。
ワークスペース内のファイルにアクセスするには、 AutoML拡張機能用にネットワークポート 1017 と 1021 を開く必要があります。これらのポートを開くか、開いていることを確認するには、クラウド VPN ファイアウォールの構成とセキュリティグループルールを確認するか、ローカルクラウド管理者に問い合わせてください。ワークスペースの構成と展開に関する追加情報については、「ワークスペースの作成」を参照してください。

AutoMLアルゴリズム

Databricks AutoMLは、以下の表のアルゴリズムに基づいてモデルをトレーニングおよび評価します。

注：

分類および回帰モデルの場合、決定木、ランダムフォレスト、ロジスティック回帰、および確率的勾配降下法による線形回帰アルゴリズムはScikit-Learnに基づいています。

分類モデル	回帰モデル	予測モデル
決定木	決定木	Prophet
ランダムフォレスト	ランダムフォレスト	Auto-ARIMA（Databricks Runtime 10.3 ML以降で使用可能）
ロジスティック回帰	確率的勾配降下法による線形回帰
XGBoost	XGBoost
LightGBM	LightGBM

トライアル世代

AutoML はトライアルの背後にあるソースコードのノートブックを生成するので、必要に応じてコードを確認、再現、変更できます。

エクスペリメントを予測するために、AutoML で生成されたデータセットは、エクスペリメントのすべてのトライアルに対してワークスペースに自動的にインポートされます。

分類と回帰の実験では、データ探索用の AutoML 生成データセットと実験内の最適なトライアルがワークスペースに自動的にインポートされます。他の実験トライアル用に生成されたデータは、ワークスペースに自動的にインポートされるのではなく、上のアーティファクトとして保存されます。MLflowDBFS最良試行以外のすべての試行では、 TrialInfo Python API のnotebook_pathとnotebook_urlは設定されません。これらのモデルを使用する必要がある場合は、 AutoML拡張機能 UI または databricks.automl.import_notebook Python APIを使用して、手動でワークスペースにインポートできます。

によって生成されたデータ探索AutoML ドイツ語または最適な試行AutoML ドイツ語のみを使用する場合、拡張機能 UI のソース列には、最適な試行用に生成されたドイツ語へのリンクが含まれます。

AutoML拡張機能 UI で生成された他のモデルを使用する場合、これらはワークスペースに自動的にインポートされません。各 MLflow 実行をクリックすると、ノートブックを見つけることができます。 IPython ノートブックは、実行ページの「アーティファクト」セクションに保存されます。ワークスペース管理者によって成果物のダウンロードが有効になっている場合は、このノートブックをダウンロードしてワークスペースにインポートできます。

モデルの説明可能性のためのShapley値（SHAP）

注：

MLR 11.1 以下では、データセットにdatetime列が含まれている場合、SHAP プロットは生成されません。

AutoMLの回帰と分類の実行によって作成されたノートブックには、Shapley値を計算するコードが含まれています。Shapley値はゲーム理論に基づいており、モデルの予測に対する各特徴量の重要性を推定します。

AutoML ノートブックは、 SHAP パッケージを使用して Shapley 値を計算します。これらの計算はメモリを大量に消費するため、デフォルトでは計算は実行されません。

Shapley値を計算して表示するには、以下を実行します。

AutoML によって生成されたトライアルノートブックの「機能の重要度」セクションに移動します。
shap_enabled = Trueと設定します。
ノートブックを再実行します。

AutoMLとは

要件

AutoMLアルゴリズム

トライアル世代

モデルの説明可能性のためのShapley値（SHAP）

次のステップ