AutoMLとは

Databricks AutoML は、最適なアルゴリズムとハイパーパラメータ構成を自動的に検出することで、データセットに機械学習を適用するプロセスを簡素化します。

データセットを提供し、機械学習の問題の種類を指定すると、AutoML は次のことを実行します。

  1. データをクリーニングして 準備します

  2. 複数のアルゴリズムにわたって分散モデルのトレーニングとハイパーブリッジの調整を調整します。

  3. Scikit-Learn 、xgboost、 LightGBM 、 Prophet 、 ARIMAの OSS 評価アルゴリズムを使用して最適なモデルを見つけます。

  4. 結果を表示します。 AutoML は各トライアルのソース コード ノートブックも生成するため、必要に応じてコードを確認、再現、変更できます。

ローコード UI または PythonAPIを介してAutoML 拡張機能を開始します。

要件

  • Databricks Runtime 9.1 ML以降。一般提供 (GA) バージョンの場合は、 Databricks Runtime 10.4 LTS ML以降。

    • 時系列予測の場合は、Databricks Runtime 10.0 ML以降。

    • Databricks Runtime 9.1 LTS ML 以降では、AutoML はdatabricks-automl-runtimeパッケージに依存します。このパッケージには、AutoML の外部で役立つコンポーネントが含まれており、AutoML トレーニングによって生成されるノートブックの簡素化にも役立ちます。 databricks-automl-runtime PyPIで利用可能です。

  • Databricks Runtime for Machine Learning にプレインストールされているライブラリ以外の追加ライブラリをクラスターにインストールしないでください。

    • 既存のライブラリのバージョンに変更を加えると(削除、アップグレード、ダウングレード)、互換性がないため、実行に失敗します。

  • ワークスペース内のファイルにアクセスするには、 AutoML拡張機能用にネットワーク ポート 1017 と 1021 を開く必要があります。 これらのポートを開くか、開いていることを確認するには、クラウド VPN ファイアウォールの構成とセキュリティ グループ ルールを確認するか、ローカル クラウド管理者に問い合わせてください。 ワークスペースの構成と展開に関する追加情報については、 「ワークスペースの作成」を参照してください。

  • サポートされている コンピュート アクセス モードのコンピュート リソースを使用します。 すべてのコンピュートアクセスモードが Unity Catalogにアクセスできるわけではありません。

    コンピュート アクセス モード

    AutoML のサポート

    Unity Catalogのサポート

    シングルユーザー

    サポート対象 (クラスターに指定された 1 人のユーザーである必要があります)

    サポート

    共有アクセスモード

    サポートされていません

    サポートされていません

    分離なし共有

    サポート

    サポートされていません

AutoMLアルゴリズム

Databricks AutoMLは、以下の表のアルゴリズムに基づいてモデルをトレーニングおよび評価します。

注:

分類および回帰モデルの場合、決定木、ランダム フォレスト、ロジスティック回帰、および確率的勾配降下法による線形回帰アルゴリズムはScikit-Learnに基づいています。

分類モデル

回帰モデル

予測モデル

決定木

決定木

Prophet

ランダムフォレスト

ランダムフォレスト

Auto-ARIMA(Databricks Runtime 10.3 ML以降で使用可能)

ロジスティック回帰

確率的勾配降下法による線形回帰

XGBoost

XGBoost

LightGBM

LightGBM

トライアルノートブックの生成

AutoML はトライアルの背後にあるソース コードのノートブックを生成するので、必要に応じてコードを確認、再現、変更できます。

エクスペリメントを予測するために、AutoML で生成されたデータセットは、エクスペリメントのすべてのトライアルに対してワークスペースに自動的にインポートされます。

分類と回帰の実験では、データ探索用の AutoML 生成データセットと実験内の最適なトライアルがワークスペースに自動的にインポートされます。 他の実験トライアル用に生成されたデータは、ワークスペースに自動的にインポートされるのではなく、 上の アーティファクトとして保存されます。MLflowDBFS最良試行以外のすべての試行では、 TrialInfo Python API のnotebook_pathnotebook_urlは設定されません。 これらのモデルを使用する必要がある場合は、 AutoML拡張機能 UI または databricks.automl.import_notebook Python APIを使用して、手動でワークスペースにインポートできます。

によって生成されたデータ探索AutoML ドイツ語 または最適な試行AutoML ドイツ語 のみを使用する場合、 拡張機能 UI の ソース 列には、最適な試行用に生成されたノートブックへのリンクが含まれます。

AutoML拡張機能 UI で生成された他のモデルを使用する場合、これらはワークスペースに自動的にインポートされません。 各 MLflow 実行をクリックすると、ノートブックを見つけることができます。 IPython ノートブックは、実行ページの「アーティファクト」セクションに保存されます。 ワークスペース管理者によって成果物のダウンロードが有効になっている場合は、このノートブックをダウンロードしてワークスペースにインポートできます。

モデルの説明可能性のためのShapley値(SHAP)

注:

MLR 11.1 以下では、データセットにdatetime列が含まれている場合、SHAP プロットは生成されません。

AutoMLの回帰と分類の実行によって作成されたノートブックには、Shapley値を計算するコードが含まれています。Shapley値はゲーム理論に基づいており、モデルの予測に対する各特徴量の重要性を推定します。

AutoML ノートブックは、 SHAP パッケージを使用して Shapley 値を計算します。 これらの計算はメモリを大量に消費するため、デフォルトでは計算は実行されません。

Shapley値を計算して表示するには、以下を実行します。

  1. AutoML によって生成されたトライアル ノートブックの「機能の重要度」セクションに移動します。

  2. shap_enabled = Trueと設定します。

  3. ノートブックを再実行します。