モデルサービングの制限と地域
プレビュー
Mosaic AI Model Serving は パブリック プレビュー 段階にあり、 us-east1
と us-central1
でサポートされています。
この記事では、Mosaic AI Model Serving の制限事項と利用可能なリージョン、およびサポートされているエンドポイントの種類についてまとめます。
リソースとペイロードの制限
Mosaic AI Model Serving は、信頼性の高いパフォーマンスを確保するためにデフォルトの制限を課しています。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。
次の表は、モデルビング エンドポイントのリソースとペイロードの制限をまとめたものです。
特徴量 |
粒 度 |
制限 |
---|---|---|
ペイロードサイズ |
要求ごと |
16メガバイト 外部モデルを提供するエンドポイントの場合、制限は 4 MB です。 |
クエリ/秒 (QPS) |
ワークスペースごと |
200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。 |
モデルの実行期間 |
要求ごと |
120秒 |
CPU エンドポイント モデルのメモリ使用量 |
エンドポイントごと |
4ギガバイト |
プロビジョニングされた同時実行性 |
ワークスペースごと |
200 コンカレンシー。 Databricks アカウント チームに問い合わせることで増やすことができます。 |
オーバーヘッド待ち時間 |
要求ごと |
50ミリ秒未満 |
initスクリプト |
initスクリプトはサポートされていません。 |
ネットワークとセキュリティの制限
モデルサービング エンドポイントは 、アクセス制御 によって保護され、ワークスペースで構成されたネットワーク関連のイングレス ルールを尊重します。
モデルサービングは、本番運用の展開が不安定になるリスクがあるため、既存のモデル イメージにセキュリティ パッチを提供しません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricksアカウント チームにお問い合わせください。
基盤モデル APIs プロビジョニング スループットの制限
以下は、基盤モデル APIs プロビジョニング スループット ワークロードに関連する制限です。
プロビジョニング スループット は HIPPA コンプライアンス プロファイルをサポートしており、コンプライアンス認定が必要なワークロードに推奨されます。
GTE v1.5 (英語) モデル アーキテクチャのみがサポートされています。
利用可能なリージョン
注:
サポートされていないリージョンのエンドポイントが必要な場合は、Databricks アカウント チームにお問い合わせください。
ワークスペースがモデルサービングをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロール プレーンによってサービスされている場合、ワークスペースはモデルサービングをサポートしません。 このようなワークスペースでモデルサービングを使用しようとすると、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、 Databricksアカウント チームにお問い合わせください。
機能の地域別の提供状況の詳細については、「 モデルサービング Regional Availability (地域別の提供状況)」を参照してください。