AutoMLとは
Databricks AutoML は、最適なアルゴリズムとハイパーパラメータ構成を自動的に検出することで、データセットに機械学習を適用するプロセスを簡素化します。
データセットを提供し、機械学習の問題の種類を指定すると、AutoML は次のことを実行します。
データをクリーニングして 準備します。
複数のアルゴリズムにわたって分散モデルのトレーニングとハイパーブリッジの調整を調整します。
Scikit-Learn 、xgboost、 LightGBM 、 Prophet 、 ARIMAの OSS 評価アルゴリズムを使用して最適なモデルを見つけます。
結果を表示します。 AutoML は各トライアルのソース コード ノートブックも生成するため、必要に応じてコードを確認、再現、変更できます。
ローコード UI または PythonAPIを介してAutoML 拡張機能を開始します。
要件
Databricks Runtime 9.1 ML以降。一般提供 (GA) バージョンの場合は、 Databricks Runtime 10.4 LTS ML以降。
時系列予測の場合は、Databricks Runtime 10.0 ML以降。
Databricks Runtime 9.1 LTS ML 以降では、AutoML は
databricks-automl-runtime
パッケージに依存します。このパッケージには、AutoML の外部で役立つコンポーネントが含まれており、AutoML トレーニングによって生成されるノートブックの簡素化にも役立ちます。databricks-automl-runtime
PyPIで利用可能です。
Databricks Runtime for Machine Learning にプレインストールされているライブラリ以外の追加ライブラリをクラスターにインストールしないでください。
既存のライブラリのバージョンに変更を加えると(削除、アップグレード、ダウングレード)、互換性がないため、実行に失敗します。
ワークスペース内のファイルにアクセスするには、 AutoML拡張機能用にネットワーク ポート 1017 と 1021 を開く必要があります。 これらのポートを開くか、開いていることを確認するには、クラウド VPN ファイアウォールの構成とセキュリティ グループ ルールを確認するか、ローカル クラウド管理者に問い合わせてください。 ワークスペースの構成と展開に関する追加情報については、 「ワークスペースの作成」を参照してください。
サポートされている コンピュート アクセス モードのコンピュート リソースを使用します。 すべてのコンピュートアクセスモードが Unity Catalogにアクセスできるわけではありません。
コンピュート アクセス モード
AutoML のサポート
Unity Catalogのサポート
シングルユーザー
サポート対象 (クラスターに指定された 1 人のユーザーである必要があります)
サポート
共有アクセスモード
サポートされていません
サポートされていません
分離なし共有
サポート
サポートされていません
AutoMLアルゴリズム
Databricks AutoMLは、以下の表のアルゴリズムに基づいてモデルをトレーニングおよび評価します。
注:
分類および回帰モデルの場合、決定木、ランダム フォレスト、ロジスティック回帰、および確率的勾配降下法による線形回帰アルゴリズムはScikit-Learnに基づいています。
分類モデル |
回帰モデル |
予測モデル |
---|---|---|
Auto-ARIMA(Databricks Runtime 10.3 ML以降で使用可能) |
||
トライアルノートブックの生成
AutoML はトライアルの背後にあるソース コードのノートブックを生成するので、必要に応じてコードを確認、再現、変更できます。
エクスペリメントを予測するために、AutoML で生成されたデータセットは、エクスペリメントのすべてのトライアルに対してワークスペースに自動的にインポートされます。
分類と回帰の実験では、データ探索用の AutoML 生成データセットと実験内の最適なトライアルがワークスペースに自動的にインポートされます。 他の実験トライアル用に生成されたデータは、ワークスペースに自動的にインポートされるのではなく、 上の アーティファクトとして保存されます。MLflowDBFS最良試行以外のすべての試行では、 TrialInfo
Python API のnotebook_path
とnotebook_url
は設定されません。 これらのモデルを使用する必要がある場合は、 AutoML拡張機能 UI または databricks.automl.import_notebook
Python APIを使用して、手動でワークスペースにインポートできます。
によって生成されたデータ探索AutoML ドイツ語 または最適な試行AutoML ドイツ語 のみを使用する場合、 拡張機能 UI の ソース 列には、最適な試行用に生成されたノートブックへのリンクが含まれます。
AutoML拡張機能 UI で生成された他のモデルを使用する場合、これらはワークスペースに自動的にインポートされません。 各 MLflow 実行をクリックすると、ノートブックを見つけることができます。 IPython ノートブックは、実行ページの「アーティファクト」セクションに保存されます。 ワークスペース管理者によって成果物のダウンロードが有効になっている場合は、このノートブックをダウンロードしてワークスペースにインポートできます。
モデルの説明可能性のためのShapley値(SHAP)
注:
MLR 11.1 以下では、データセットにdatetime
列が含まれている場合、SHAP プロットは生成されません。
AutoMLの回帰と分類の実行によって作成されたノートブックには、Shapley値を計算するコードが含まれています。Shapley値はゲーム理論に基づいており、モデルの予測に対する各特徴量の重要性を推定します。
AutoML ノートブックは、 SHAP パッケージを使用して Shapley 値を計算します。 これらの計算はメモリを大量に消費するため、デフォルトでは計算は実行されません。
Shapley値を計算して表示するには、以下を実行します。
AutoML によって生成されたトライアル ノートブックの「機能の重要度」セクションに移動します。
shap_enabled = True
と設定します。ノートブックを再実行します。