チュートリアル: カスタムモデルのデプロイとクエリ

プレビュー

Mosaic AI Model Serving はパブリックプレビュー段階にあり、 us-east1 と us-central1でサポートされています。

この記事では、ML Mosaic AI Model Servingを使用して、従来のモデルであるカスタムモデルをデプロイおよびクエリするための基本的なステップについて説明します。モデルは Unity Catalogに登録されている必要があります。

代わりに生成AI モデルの提供とデプロイについては、次の記事を参照してください。

ステップ 1: モデルのログを記録する

モデルサービングのモデルを記録するには、さまざまな方法があります。

ロギング手法	説明
自動ロギング	これは、機械学習に Databricks Runtime を使用すると自動的に有効になります。これは最も簡単な方法ですが、制御が少なくなります。
MLflow の組み込みフレーバーを使用したログ記録	MLflow の組み込みモデルフレーバーを使用して、モデルを手動でログに記録できます。
カスタムロギング `pyfunc`	これは、カスタムモデルがある場合、または推論の前後に追加のステップが必要な場合に使用します。

次の例は、 transformer フレーバーを使用して MLflow モデルをログに記録し、モデルに必要なパラメーターを指定する方法を示しています。

with mlflow.start_run():
    model_info = mlflow.transformers.log_model(
        transformers_model=text_generation_pipeline,
        artifact_path="my_sentence_generator",
        inference_config=inference_config,
        registered_model_name='gpt2',
        input_example=input_example,
        signature=signature
    )

モデルがログに記録されたら、モデルが Unity Catalog に登録されていることを必ず確認してください。

ステップ 2: サービングUI を使用してエンドポイントを作成する

登録したモデルがログに記録され、提供する準備ができたら、 Serve UI を使用してモデルサービングエンドポイントを作成できます。

サイドバーの [ サービング] をクリックして、 サービング UI を表示します。
[ サービングエンドポイントの作成] をクリックします。
[ 名前 ] フィールドに、エンドポイントの名前を入力します。
[ Served entities ] セクションで、次の操作を行います
1. [エンティティ] フィールドをクリックして、"提供エンティティの選択" フォームを開きます。
2. 提供するモデルの種類を選択します。フォームは、選択内容に基づいて動的に更新されます。
3. 提供するモデルとモデルバージョンを選択します。
4. 配信モデルにルーティングするトラフィックの割合を選択します。
5. 使用するコンピュートのサイズを選択します。
6. [コンピュートスケールアウト] で、この提供モデルが同時に処理できるリクエストの数に対応するコンピュートスケールアウトのサイズを選択します。この数値は、QPS x モデルの実行時間にほぼ等しくなります。
  1. 使用可能なサイズは、0 から 4 の要求の場合は [ 小 ]、8 から 16 の要求の場合は [ 中] 、16 から 64 の要求の場合は [大] です。
7. 使用していないときにエンドポイントをゼロにスケーリングするかどうかを指定します。
「作成」をクリックします。[Serving endpoints ] ページが表示され、[ Serving endpoint state ] が [Not Ready] と表示されます。

Databricks Serving API を使用してプログラムでエンドポイントを作成する場合は、「カスタムモデルサービングエンドポイントの作成」を参照してください。

ステップ 3: エンドポイントをクエリーする

スコアリングリクエストをテストしてサーブモデルに送信する最も簡単で最速の方法は、 Serve UI を使用することです。

[ サービスエンドポイント] ページで、[ クエリーエンドポイント] を選択します。
モデル入力データを JSON 形式で挿入し、[ 要求の送信] をクリックします。モデルが入力例とともにログに記録されている場合は、[ 例の表示 ] をクリックして入力例を読み込みます。
```
   {
   "inputs" : ["Hello, I'm a language model,"],
   "params" : {"max_new_tokens": 10, "temperature": 1}
   }
```

スコアリングリクエストを送信するには、サポートされているキーの 1 つと入力形式に対応する JSON オブジェクトを使用して JSON を構築します。サポートされている形式と、API を使用してスコアリングリクエストを送信する方法についてのガイダンスについては、「カスタムモデルのサービングエンドポイントをクエリする」を参照してください。

Databricks Serving UI の外部からサービスエンドポイントにアクセスする場合は、 DATABRICKS_API_TOKENが必要です。

チュートリアル: カスタム モデルのデプロイとクエリ

ステップ 1: モデルのログを記録する

ステップ 2: サービングUI を使用してエンドポイントを作成する

ステップ 3: エンドポイントをクエリーする

チュートリアル: カスタムモデルのデプロイとクエリ