転移学習の特徴量化

この記事では、pandas UDF を使用して転移学習の特徴付けを行う例を示します。

DLモデルにおける転移学習の特徴量化

Databricks では、ディープラーニング モデルによる特徴量化がサポートされています。 事前トレーニング済みのディープラーニング モデルを使用して、他のダウンストリーム モデルで使用するために特徴をコンピュートできます。 Databricks では、大規模な特徴量化がサポートされ、クラスター全体に計算が分散されます。 TensorFlow や PyTorch などの Databricks Runtime 機械学習に含まれるディープラーニング ライブラリを使用して特徴量化を実行できます。

Databricks は、特徴付けに密接に関連する手法である 転移学習もサポートしています。 転移学習を使用すると、1 つの問題ドメインの知識を関連ドメインで再利用できます。 特徴量化は、それ自体が転移学習のためのシンプルで強力な方法です:事前トレーニング済みのディープラーニングモデルを使用して特徴を計算することは、元のドメインから良い特徴に関する知識を転送します。

転移学習のための特徴量化計算のためのステップ

この記事では、次のワークフローを使用して、事前トレーニング済みの TensorFlow モデルを使用して転移学習の機能を調整する方法を示します。

  1. 事前トレーニング済みのディープラーニング モデル (この場合は tensorflow.keras.applicationsの画像分類モデル) から開始します。

  2. モデルの最後のレイヤーを切り捨てます。 変更されたモデルは、予測ではなく、出力として特徴のテンソルを生成します。

  3. そのモデルを別の問題ドメインの新しい画像データセットに適用し、画像の特徴を計算します。

  4. これらの機能を使用して、新しいモデルをトレーニングする 次のノートブックでは、この最後の手順を省略しています。 ロジスティック回帰などの単純なモデルのトレーニングの例については、「 トレーニングする AI モデル」および「 ML モデル」を参照してください。

例: 特徴量化にpandas UDF を使用する

次のノートブックでは、 pandas UDF を使用して特徴付けステップを実行します。 pandas UDFとその新しいバリアントである Scalar Iterator pandas UDFは、柔軟な APIsを提供し、あらゆるディープラーニングライブラリをサポートし、高性能を提供します。

TensorFlowによる特徴量化と転移学習

ノートブックを新しいタブで開く