Databricksによるモデルサービング

プレビュー

この機能は パブリック プレビュー 段階であり、 us-east1us-central1でサポートされています。

この記事ではMosaic AI Model Serving 、その利点と制限を含めて説明します。

Mosaic AI Model Servingとは?

Mosaic AI Model Serving は、AI モデルをデプロイ、制御、クエリしてリアルタイムの推論を行うための統一されたインターフェイスを提供します。 提供する各モデルは、Web アプリケーションまたはクライアント アプリケーションに統合できる REST API として使用できます。

モデルサービングでは、モデルをデプロイするための高可用性と低レイテンシのサービスが提供されます。 このサービスは、需要の変化に合わせて自動的にスケールアップまたはスケールダウンし、インフラストラクチャ コストを節約しながらレイテンシ パフォーマンスを最適化します。 この機能はサーバレスコンピュートを使用します。 詳細はモデルサービング価格ページをご覧ください。

モデルサービングは、次のサービスをサポートしています。

  • カスタムモデル。 これらは、MLflow 形式でパッケージ化された Python モデルです。 Unity Catalog に登録されている必要があります。 例としては、scikit-learn、XGBoost、PyTorch、Hugging Face トランスフォーマーモデルなどがあります。

  • 外部モデル。 これらは、Databricksの外部でホストされている生成AI モデルです。例としては、OpenAIのGPT-4、AnthropicのClaudeなどのモデルが含まれます。 外部モデルを提供するエンドポイントを一元管理し、顧客はレート制限とアクセス制御を確立できます。

  • 基盤モデル APIs プロビジョニング スループットによって利用可能になる最先端のオープン モデル。これらのモデルは、キュレーションされた基盤モデル アーキテクチャ、またはパフォーマンス保証が必要なワークロードの最適化された推論をサポートする微調整されたモデル バリアントです。

モデルサービングは、CRUDおよびクエリタスクのための統一された REST API および MLflow デプロイメント API を提供します。 さらに、すべてのモデルとそれぞれの配信エンドポイントを管理するための単一のUIを提供します。

Databricks でカスタム モデルを提供する方法に関する入門チュートリアルについては、 「チュートリアル: カスタム モデルのデプロイとクエリ」を参照してください。

モデルサービングを使用する理由

  • 任意のモデルのデプロイとクエリ: モデルサービングは、Databricks でホストされているか外部でホストされているかに関係なく、すべてのモデルを 1 つの場所で管理し、1 つの API でクエリを実行できる統合インターフェイスを提供します。 このアプローチにより、さまざまなクラウドやプロバイダー間で本番運用のモデルを使用したエクスペリメント、カスタマイズ、およびデプロイのプロセスが簡素化されます。

  • 最適化された推論と高速スケーリングによるコスト削減:Databricks は、大規模モデルに対して最高のスループットとレイテンシを実現するために、さまざまな最適化を実装しています。 エンドポイントは、需要の変化に合わせて自動的にスケールアップまたはスケールダウンし、インフラストラクチャのコストを節約しながら、レイテンシパフォーマンスを最適化します。 モデルサービングのコストを監視する

  • モデルサービングに信頼性とセキュリティをもたらす: モデルサービングは、高可用性、低レイテンシの本番運用用に設計されており、50 ミリ秒未満のオーバーヘッド待機時間で毎秒 25K を超えるクエリをサポートできます。 サービスワークロードは複数のセキュリティ層によって保護され、最も機密性の高いタスクに対しても安全で信頼性の高い環境を確保します。

モデルサービングは、本番運用の展開が不安定になるリスクがあるため、既存のモデル イメージにセキュリティ パッチを提供しません。 新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。 詳細については、 Databricksアカウント チームにお問い合わせください。

要件

ワークスペースでモデルサービングを有効にする

ワークスペースでモデルサービングを有効にするために追加の手順は必要ありません。

制限事項と利用可能なリージョン

Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するためにデフォルトの制限が課せられます。 モデルサービングの制限とリージョンを参照してください。 これらの制限やサポートされていないリージョンのエンドポイントに関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

モデルサービングにおけるデータ保護

Databricks はデータ セキュリティを真剣に受け止めています。 Databricks は、Mosaic AI Model Serving を使用して分析するデータの重要性を理解しており、データを保護するために次のセキュリティ制御を実装しています。

  • モデルサービングに対するすべての顧客の要求は、論理的に分離され、認証され、承認されます。

  • Mosaic AI Model Serving は、保存中のすべてのデータ (AES-256) と転送中のすべてのデータ (TLS 1.2+) を暗号化します。

すべての有料アカウントについて、 Mosaic AI Model Servingサービスに送信されたユーザー入力やサービスからの出力を、モデルの作成やDatabricksサービスの改善に使用しません。

Databricks基盤モデルAPIsについては、サービスの提供の一環として、Databricks、乱用または有害な使用を防止、検出、および軽減する目的で、入力と出力を一時的に処理および保存する場合があります。お客様の入力と出力は、他の顧客の入力と出力から分離され、ワークスペースと同じリージョンに最大 30 日間保存され、セキュリティや不正使用の懸念を検出して対応するためにのみアクセスできます。 基盤モデル APIs は Databricks Designated サービスであり、Databricks Geosによって実装されているデータ レジデンシーの境界に準拠しています。