モデルサービングの制限と地域

プレビュー

Mosaic AI Model Serving は パブリック プレビュー 段階にあり、 us-east1us-central1でサポートされています。

この記事では、Mosaic AI Model Serving の制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類についてまとめます。

リソースとペイロードの制限

Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

次の表は、モデルビング エンドポイントのリソースとペイロードの制限をまとめたものです。

特徴量

粒 度

制限

ペイロードサイズ

要求ごと

16メガバイト 外部モデルを提供するエンドポイントの場合、制限は 4 MB です。

クエリ/秒 (QPS)

ワークスペースごと

200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。

モデルの実行期間

要求ごと

120秒

CPU エンドポイント モデルのメモリ使用量

エンドポイントごと

4ギガバイト

プロビジョニングされた同時実行性

ワークスペースごと

200 コンカレンシー。 Databricks アカウント チームに問い合わせることで増やすことができます。

オーバーヘッド待ち時間

要求ごと

50ミリ秒未満

initスクリプト

initスクリプトはサポートされていません。

ネットワークとセキュリティの制限

  • モデルサービング エンドポイントは 、アクセス制御 によって保護され、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。

  • モデルサービングは、本番運用の展開が不安定になるリスクがあるため、既存のモデル イメージにセキュリティ パッチを提供しません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricksアカウント チームにお問い合わせください。

基盤モデル APIs プロビジョニング スループットの制限

以下は、基盤モデル APIs プロビジョニング スループット ワークロードに関連する制限です。

  • プロビジョニング スループット は HIPPA コンプライアンス プロファイルをサポートしており、コンプライアンス認定が必要なワークロードに推奨されます。

  • GTE v1.5 (英語) モデル アーキテクチャのみがサポートされています。

利用可能なリージョン

注:

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。

ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロール プレーンによってサービスされている場合、ワークスペースはモデルサービングをサポートしません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、 Databricksアカウント チームにお問い合わせください。

機能の地域別の提供状況の詳細については、「 モデルサービング Regional Availability (地域別の提供状況)」を参照してください。