AutoMLとは
AutoML は、最適なアルゴリズムとハイパーパラメータ設定を自動的に見つけることで、データセットに機械学習を適用するプロセスを簡素化します。
AutoML はどのように機能しますか?
データセットを提供し、機械学習の問題の種類を指定すると、AutoML は次のことを実行します。
データをクリーニングして準備します。
複数のアルゴリズムにわたって分散モデルのトレーニングとハイパーブリッジの調整を調整します。
Scikit-Learn 、xgboost、 LightGBM 、 Prophet 、 ARIMAの OSS 評価アルゴリズムを使用して最適なモデルを見つけます。
結果を表示します。 AutoML は各トライアルのソース コード ノートブックも生成するため、必要に応じてコードを確認、再現、変更できます。
エクスペリメントの AutoML は、 回帰のためのローコードUIで開始します。 分類;または 予測、または Python API。
要件
Databricks では、AutoML の一般提供のために Databricks Runtime 10.4 LTS ML 以降をお勧めします。
AutoML は、AutoML の外部で役立つコンポーネントを含み、AutoML トレーニングによって生成されたノートブックを簡略化するのにも役立つ
databricks-automl-runtime
パッケージに依存しています。databricks-automl-runtime
は PyPI で入手できます。Databricks Runtime for Machine Learning にプレインストールされているライブラリ以外の追加ライブラリをクラスターにインストールしないでください。
既存のライブラリのバージョンに変更を加えると(削除、アップグレード、ダウングレード)、互換性がないため、実行に失敗します。
ワークスペース内のファイルにアクセスするには、 AutoML拡張機能用にネットワーク ポート 1017 と 1021 を開く必要があります。 これらのポートを開くか、開いていることを確認するには、クラウド VPN ファイアウォールの構成とセキュリティ グループ ルールを確認するか、ローカル クラウド管理者に問い合わせてください。 ワークスペースの構成と展開に関する追加情報については、 「ワークスペースの作成」を参照してください。
サポートされている コンピュート アクセス モードのコンピュート リソースを使用します。 すべてのコンピュートアクセスモードが Unity Catalogにアクセスできるわけではありません。
コンピュート アクセス モード
AutoML のサポート
Unity Catalogのサポート
シングルユーザー
サポート対象 (クラスターに指定された 1 人のユーザーである必要があります)
サポート
共有アクセスモード
サポートされていません
サポートされていません
分離なし共有
サポート
サポートされていません
AutoMLアルゴリズム
AutoML トレーニングする 次の表のアルゴリズムに基づいてモデルを評価します。
注:
分類および回帰モデルの場合、決定木、ランダム フォレスト、ロジスティック回帰、および確率的勾配降下法による線形回帰アルゴリズムはScikit-Learnに基づいています。
|分類モデル |回帰モデル |予測モデル | |——————— |—————– |—————— |決定木 |決定木 |Prophet| |ランダムフォレスト |ランダムフォレスト|Auto-ARIMA (Databricks Runtime 10.3 ML 以降で利用可能)||ロジスティック回帰 |確率的勾配降下法による線形回帰 | | |XGBoost |XGBoost | |LightGBM|LightGBM| |
トライアルノートブックの生成
クラシック コンピュート AutoML は、試用版の背後にあるソース コードのノートブックを生成するため、必要に応じてコードを確認、再現、変更できます。
エクスペリメントを予測するために、AutoML で生成されたデータセットは、エクスペリメントのすべてのトライアルに対してワークスペースに自動的にインポートされます。
分類と回帰の実験では、データ探索用の AutoML 生成データセットと実験内の最適なトライアルがワークスペースに自動的にインポートされます。 他の実験トライアルで生成されたノートブックは、ワークスペースに自動的にインポートされるのではなく、 DBFS上のMLflowアーティファクトとして保存されます。ベストトライアル以外のすべてのトライアルでは、 TrialInfo
Python API のnotebook_path
とnotebook_url
は設定されません。 これらのモデルを使用する必要がある場合は、 AutoML拡張機能 UI または databricks.automl.import_notebook
Python APIを使用して、手動でワークスペースにインポートできます。
AutoMLによって生成されたデータ探索ノートブックやベストトライアルのノートブックのみを使用する場合、AutoMLエクスペリメントUIの ソース列には、ベストトライアル用に生成されたノートブックへのリンクが含まれます。
AutoML拡張機能 UI で生成された他のモデルを使用する場合、これらはワークスペースに自動的にインポートされません。 各 MLflow 実行をクリックすると、ノートブックを見つけることができます。 IPython ノートブックは、実行ページの「アーティファクト」セクションに保存されます。 ワークスペース管理者によって成果物のダウンロードが有効になっている場合は、このノートブックをダウンロードしてワークスペースにインポートできます。
モデルの説明可能性のためのShapley値(SHAP)
注:
MLR 11.1 以下では、データセットにdatetime
列が含まれている場合、SHAP プロットは生成されません。
AutoMLの回帰と分類の実行によって作成されたノートブックには、Shapley値を計算するコードが含まれています。Shapley値はゲーム理論に基づいており、モデルの予測に対する各特徴量の重要性を推定します。
AutoML ノートブックは、 SHAP パッケージを使用して Shapley 値を計算します。 これらの計算はメモリを大量に消費するため、デフォルトでは計算は実行されません。
Shapley値を計算して表示するには、以下を実行します。
AutoML によって生成されたトライアル ノートブックの「機能の重要度」セクションに移動します。
shap_enabled = True
と設定します。ノートブックを再実行します。