AutoMLとは

AutoML は、最適なアルゴリズムとハイパーパラメータ設定を自動的に見つけることで、データセットに機械学習を適用するプロセスを簡素化します。

AutoML はどのように機能しますか?

データセットを提供し、機械学習の問題の種類を指定すると、AutoML は次のことを実行します。

データをクリーニングして準備します。
複数のアルゴリズムにわたって分散モデルのトレーニングとハイパーブリッジの調整を調整します。
Scikit-Learn 、xgboost、 LightGBM 、 Prophet 、 ARIMAの OSS 評価アルゴリズムを使用して最適なモデルを見つけます。
結果を表示します。 AutoML は各トライアルのソースコードノートブックも生成するため、必要に応じてコードを確認、再現、変更できます。

エクスペリメントの AutoML は、回帰のためのローコードUIで開始します。分類;または予測、または Python API。

要件

Databricks では、AutoML の一般提供のために Databricks Runtime 10.4 LTS ML 以降をお勧めします。
AutoML は、AutoML の外部で役立つコンポーネントを含み、AutoML トレーニングによって生成されたノートブックを簡略化するのにも役立つ databricks-automl-runtime パッケージに依存しています。 databricks-automl-runtime は PyPI で入手できます。
Databricks Runtime for Machine Learning にプレインストールされているライブラリ以外の追加ライブラリをクラスターにインストールしないでください。
- 既存のライブラリのバージョンに変更を加えると（削除、アップグレード、ダウングレード）、互換性がないため、実行に失敗します。
ワークスペース内のファイルにアクセスするには、 AutoML拡張機能用にネットワークポート 1017 と 1021 を開く必要があります。これらのポートを開くか、開いていることを確認するには、クラウド VPN ファイアウォールの構成とセキュリティグループルールを確認するか、ローカルクラウド管理者に問い合わせてください。ワークスペースの構成と展開に関する追加情報については、「ワークスペースの作成」を参照してください。

サポートされているコンピュートアクセスモードのコンピュートリソースを使用します。すべてのコンピュートアクセスモードが Unity Catalogにアクセスできるわけではありません。

コンピュートアクセスモード	AutoML のサポート	Unity Catalogのサポート
専用アクセスモード	サポート	サポート
シングルユーザー	サポート対象 (クラスターに指定された 1 人のユーザーである必要があります)	サポート
共有アクセスモード	サポートされていません	サポートされていません
分離なし共有	サポート	サポートされていません

AutoMLアルゴリズム

AutoML トレーニングする次の表のアルゴリズムに基づいてモデルを評価します。

注：

分類および回帰モデルの場合、決定木、ランダムフォレスト、ロジスティック回帰、および確率的勾配降下法による線形回帰アルゴリズムはScikit-Learnに基づいています。

|分類モデル |回帰モデル |予測モデル | |——————— |—————– |—————— |決定木 |決定木 |Prophet| |ランダムフォレスト |ランダムフォレスト|Auto-ARIMA (Databricks Runtime 10.3 ML 以降で利用可能)||ロジスティック回帰 |確率的勾配降下法による線形回帰 | | |XGBoost |XGBoost | |LightGBM|LightGBM| |

トライアルノートブックの生成

クラシックコンピュート AutoML は、試用版の背後にあるソースコードのノートブックを生成するため、必要に応じてコードを確認、再現、変更できます。

エクスペリメントを予測するために、AutoML で生成されたデータセットは、エクスペリメントのすべてのトライアルに対してワークスペースに自動的にインポートされます。

分類と回帰の実験では、データ探索用の AutoML 生成データセットと実験内の最適なトライアルがワークスペースに自動的にインポートされます。他の実験トライアルで生成されたノートブックは、ワークスペースに自動的にインポートされるのではなく、 DBFS上のMLflowアーティファクトとして保存されます。ベストトライアル以外のすべてのトライアルでは、 TrialInfo Python API のnotebook_pathとnotebook_urlは設定されません。これらのモデルを使用する必要がある場合は、 AutoML拡張機能 UI または databricks.automl.import_notebook Python APIを使用して、手動でワークスペースにインポートできます。

AutoMLによって生成されたデータ探索ノートブックやベストトライアルのノートブックのみを使用する場合、AutoMLエクスペリメントUIの ソース列には、ベストトライアル用に生成されたノートブックへのリンクが含まれます。

AutoML拡張機能 UI で生成された他のモデルを使用する場合、これらはワークスペースに自動的にインポートされません。各 MLflow 実行をクリックすると、ノートブックを見つけることができます。 IPython ノートブックは、実行ページの「アーティファクト」セクションに保存されます。ワークスペース管理者によって成果物のダウンロードが有効になっている場合は、このノートブックをダウンロードしてワークスペースにインポートできます。

モデルの説明可能性のためのShapley値（SHAP）

注：

MLR 11.1 以下では、データセットにdatetime列が含まれている場合、SHAP プロットは生成されません。

AutoMLの回帰と分類の実行によって作成されたノートブックには、Shapley値を計算するコードが含まれています。Shapley値はゲーム理論に基づいており、モデルの予測に対する各特徴量の重要性を推定します。

AutoML ノートブックは、 SHAP パッケージを使用して Shapley 値を計算します。これらの計算はメモリを大量に消費するため、デフォルトでは計算は実行されません。

Shapley値を計算して表示するには、以下を実行します。

AutoML によって生成されたトライアルノートブックの「機能の重要度」セクションに移動します。
shap_enabled = Trueと設定します。
ノートブックを再実行します。