ワークスペース機能ストア(レガシー)

注:

このドキュメントでは、ワークスペース Feature Store について説明します。 ワークスペース Feature Store は、2024 年 8 月 19 日 4:00:00 PM (UTC) より前に作成されたワークスペースでのみ使用できます。

Databricks では Unity CatalogのFeature Engineeringの使用を推奨しています。 ワークスペース Feature Storeは将来廃止される予定です。

ワークスペース Feature Store を使用する理由

ワークスペース Feature Store は、 Databricksの他のコンポーネントと完全に統合されています。

  • 発見性:Databricks ワークスペースからアクセスできる Feature Store UI では、既存の特徴量を参照および検索できます。

  • リネージ。 Databricksで特徴量テーブルを作成すると、特徴量テーブルの作成に使用されたデータソースが保存され、アクセスできるようになります。 特徴テーブル内の各特徴について、その特徴を使用するモデル、データベース、ジョブ、エンドポイントにアクセスすることもできます。

  • モデルのスコアリングやサービングとの統合:Feature Storeの特徴量を使用してモデルをトレーニングする場合、モデルは特徴量メタデータと一緒にパッケージ化されます。モデルをバッチスコアリングまたはオンライン推論に使用すると、Feature Storeから自動的に特徴量が取得されます。呼び出し側はこれらの特徴量について知る必要はありませんし、特徴量を検索または結合して新しいデータをスコアリングするロジックを組み込む必要もありません。これにより、モデルのデプロイメントや更新が容易になります。

  • ポイントインタイムのルックアップ:Feature Store は、特定の時点での正確性を必要とする時系列およびイベントベースのユースケースをサポートします。

ワークスペース Feature Store はどのように機能しますか?

Feature Store を使用した典型的な機械学習ワークフローは次のようになります。

  1. 生データを特徴に変換するコードを記述し、必要な特徴を含む Spark DataFrame を作成します。

  2. DataFrameを特徴量テーブルとしてワークスペースFeature Storeに書き込みます。

  3. トレーニングする Feature Storeの特徴を使用するモデル . これを行うと、モデルにはトレーニングに使用される特徴量テーブルの仕様が格納されます。 モデルが推論に使用されると、適切な特徴テーブルの特徴が自動的に結合されます。

  4. モデルをモデルレジストリに登録します。

これで、モデルを使用して新しいデータの予測を行うことができます。 モデルは、必要な特徴量を Feature Store から自動的に取得します。

バッチ機械学習ユースケース向けの Feature Store ワークフロー。

ワークスペース Feature Store を使い始める

まず、これらのサンプルノートブックを試してください。 この基本的なコンピューター ステップでは、特徴量テーブルを作成し、それを使用してモデルをトレーニングし、自動特徴検索を使用してバッチ スコアリングを実行する方法について説明します。 また、特徴量エンジニアリング UI を紹介し、それを使用して機能を検索する方法と、機能がどのように作成され使用されるかを理解する方法を示します。

ワークスペース Feature Store の基本的なサンプルノートブック

ノートブックを新しいタブで開く

タクシーのサンプルノートブックは、特徴量を作成し、それを更新し、モデルのトレーニングとバッチ推論に使用するプロセスを示しています。

ワークスペース Feature Store を利用したタクシーサンプルノートブック

ノートブックを新しいタブで開く

サポートされているデータ型

サポートされているデータ型については、「 サポートされているデータ型」を参照してください。