転移学習の特徴量化

この記事では、pandas UDF を使用して転移学習の特徴付けを行う例を示します。

DLモデルにおける転移学習の特徴量化

Databricks では、ディープラーニングモデルによる特徴量化がサポートされています。事前トレーニング済みのディープラーニングモデルを使用して、他のダウンストリームモデルで使用するために特徴をコンピュートできます。 Databricks では、大規模な特徴量化がサポートされ、クラスター全体に計算が分散されます。 TensorFlow や PyTorch などの Databricks Runtime 機械学習に含まれるディープラーニングライブラリを使用して特徴量化を実行できます。

Databricks は、特徴付けに密接に関連する手法である転移学習もサポートしています。転移学習を使用すると、1 つの問題ドメインの知識を関連ドメインで再利用できます。特徴量化は、それ自体が転移学習のためのシンプルで強力な方法です:事前トレーニング済みのディープラーニングモデルを使用して特徴を計算することは、元のドメインから良い特徴に関する知識を転送します。

転移学習のための特徴量化計算のためのステップ

この記事では、次のワークフローを使用して、事前トレーニング済みの TensorFlow モデルを使用して転移学習の機能を調整する方法を示します。

事前トレーニング済みのディープラーニングモデル (この場合は tensorflow.keras.applicationsの画像分類モデル) から開始します。
モデルの最後のレイヤーを切り捨てます。変更されたモデルは、予測ではなく、出力として特徴のテンソルを生成します。
そのモデルを別の問題ドメインの新しい画像データセットに適用し、画像の特徴を計算します。
これらの機能を使用して、新しいモデルをトレーニングする次のノートブックでは、この最後の手順を省略しています。ロジスティック回帰などの単純なモデルのトレーニングの例については、「トレーニングする AI モデル」および「 ML モデル」を参照してください。

例: 特徴量化にpandas UDF を使用する

次のノートブックでは、 pandas UDF を使用して特徴付けステップを実行します。 pandas UDFとその新しいバリアントである Scalar Iterator pandas UDFは、柔軟な APIsを提供し、あらゆるディープラーニングライブラリをサポートし、高性能を提供します。

TensorFlowによる特徴量化と転移学習

ノートブックを新しいタブで開く