転移学習の特徴量化
この記事では、pandas UDF を使用して転移学習の特徴付けを行う例を示します。
DLモデルにおける転移学習の特徴量化
Databricks では、ディープラーニング モデルによる特徴量化がサポートされています。 事前トレーニング済みのディープラーニング モデルを使用して、他のダウンストリーム モデルで使用するために特徴をコンピュートできます。 Databricks では、大規模な特徴量化がサポートされ、クラスター全体に計算が分散されます。 TensorFlow や PyTorch などの Databricks Runtime 機械学習に含まれるディープラーニング ライブラリを使用して特徴量化を実行できます。
Databricks は、特徴付けに密接に関連する手法である 転移学習もサポートしています。 転移学習を使用すると、1 つの問題ドメインの知識を関連ドメインで再利用できます。 特徴量化は、それ自体が転移学習のためのシンプルで強力な方法です:事前トレーニング済みのディープラーニングモデルを使用して特徴を計算することは、元のドメインから良い特徴に関する知識を転送します。
転移学習のための特徴量化計算のためのステップ
この記事では、次のワークフローを使用して、事前トレーニング済みの TensorFlow モデルを使用して転移学習の機能を調整する方法を示します。
事前トレーニング済みのディープラーニング モデル (この場合は
tensorflow.keras.applications
の画像分類モデル) から開始します。モデルの最後のレイヤーを切り捨てます。 変更されたモデルは、予測ではなく、出力として特徴のテンソルを生成します。
そのモデルを別の問題ドメインの新しい画像データセットに適用し、画像の特徴を計算します。
これらの機能を使用して、新しいモデルをトレーニングする 次のノートブックでは、この最後の手順を省略しています。 ロジスティック回帰などの単純なモデルのトレーニングの例については、「 トレーニングする AI モデル」および「 ML モデル」を参照してください。
例: 特徴量化にpandas UDF を使用する
次のノートブックでは、 pandas UDF を使用して特徴付けステップを実行します。 pandas UDFとその新しいバリアントである Scalar Iterator pandas UDFは、柔軟な APIsを提供し、あらゆるディープラーニングライブラリをサポートし、高性能を提供します。