モデルサービングの制限と地域

プレビュー

Mosaic AI Model Serving はパブリックプレビュー段階にあり、 us-east1 と us-central1でサポートされています。

この記事では、Mosaic AI Model Serving の制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類についてまとめます。

リソースとペイロードの制限

Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。これらの制限に関するフィードバックがある場合は、Databricks アカウントチームにお問い合わせください。

次の表は、モデルビングエンドポイントのリソースとペイロードの制限をまとめたものです。

特徴量	粒度	制限
ペイロードサイズ	要求ごと	16メガバイト外部モデルを提供するエンドポイントの場合、制限は 4 MB です。
クエリ/秒 (QPS)	ワークスペースごと	200 ですが、Databricks アカウントチームに連絡することで 25,000 以上に増やすことができます。
モデルの実行期間	要求ごと	120秒
CPU エンドポイントモデルのメモリ使用量	エンドポイントごと	4ギガバイト
プロビジョニングされた同時実行性	ワークスペースごと	200 コンカレンシー。 Databricks アカウントチームに問い合わせることで増やすことができます。
オーバーヘッド待ち時間	要求ごと	50ミリ秒未満
initスクリプト		initスクリプトはサポートされていません。

ネットワークとセキュリティの制限

モデルサービングエンドポイントは、アクセス制御によって保護され、ワークスペースで構成されたネットワーク関連のイングレスルールを尊重します。
モデルサービングは、本番運用の展開が不安定になるリスクがあるため、既存のモデルイメージにセキュリティパッチを提供しません。新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。詳細については、 Databricksアカウントチームにお問い合わせください。

プラットフォームAPIs制限

以下は、基盤モデル APIs プロビジョニングスループット ワークロードに関連する制限です。

プロビジョニングスループット は HIPPA コンプライアンスプロファイルをサポートしており、コンプライアンス認定が必要なワークロードに推奨されます。
GTE v1.5 (英語) モデルアーキテクチャのみがサポートされています。

利用可能なリージョン

注：

サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウントチームにお問い合わせください。

ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロールプレーンによってサービスされている場合、ワークスペースはモデルサービングをサポートしません。このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。詳細については、 Databricksアカウントチームにお問い合わせください。

機能の地域別の提供状況の詳細については、「モデルサービング Regional Availability (地域別の提供状況)」を参照してください。