Mosaic AI Model Servingを使用したモデルのデプロイ

プレビュー

この機能はパブリックプレビュー段階であり、 us-east1 と us-central1でサポートされています。

この記事では、リアルタイムサービングとバッチ推論のAIモデルとMLモデルをデプロイするためのソリューションである Mosaic AI Model Servingについて説明します。

Mosaic AI Model Servingとは?

Mosaic AI Model Serving は、リアルタイムおよびバッチ推論のための AI モデルをデプロイ、制御、クエリするための統一されたインターフェイスを提供します。提供する各モデルは、Web アプリケーションまたはクライアントアプリケーションに統合できる REST API として使用できます。

モデルサービングでは、モデルをデプロイするための高可用性と低レイテンシのサービスが提供されます。このサービスは、需要の変化に合わせて自動的にスケールアップまたはスケールダウンし、インフラストラクチャコストを節約しながらレイテンシパフォーマンスを最適化します。この機能はサーバレスコンピュートを使用します。詳細はモデルサービング価格ページをご覧ください。

モデルサービングは、CRUDおよびクエリタスクのための統一された REST API および MLflow デプロイメント API を提供します。さらに、すべてのモデルとそれぞれの配信エンドポイントを管理するための単一のUIを提供します。また、SQLAI 関数を使用してから直接モデルにアクセスすることもでき、アナリティクスワークフローに簡単に統合できます。

開始するには、次のガイドを参照してください。

Databricks でカスタムモデルを提供する方法に関する入門チュートリアルについては、チュートリアル: カスタムモデルのデプロイとクエリを参照してください。
Databricks の外部でホストされている基盤モデルの提供については、「チュートリアル: OpenAI モデルに対してクエリを実行するための外部モデルエンドポイントを作成する」を参照してください。
Databricksでホストされる基盤モデルの提供については、プロビジョニングスループット基盤モデル APIsを参照してください。

デプロイできるモデル

モデルサービングは、次のモデルタイプのリアルタイム推論とバッチ推論をサポートします。

カスタムモデル。これらは、MLflow 形式でパッケージ化された Python モデルです。 Unity Catalog に登録されている必要があります。例としては、scikit-learn、XGBoost、PyTorch、Hugging Face トランスフォーマーモデルなどがあります。
基盤モデル.
- Meta LlamaのようなDatabricksがホストする基盤モデル。これらのモデルは、基盤モデル APIsを使用して使用できます。これらのモデルは、最適化された推論をサポートするキュレーションされた基盤モデルアーキテクチャです。 Meta-Llama-3.3-70B-Instructなどの基本モデルと GTE-Large は、 トークン単位の従量課金 価格ですぐに使用でき、パフォーマンスの保証と微調整されたモデルのバリアントが必要なワークロードは、 プロビジョニングスループットでデプロイできます。
- OpenAI の GPT-4 など、Databricks の外部でホストされている基盤モデル。これらのモデルには、外部モデルを使用してアクセスできます。これらのモデルを提供するエンドポイントは Databricks から一元的に管理できるため、組織内の OpenAI や Anthropic などのさまざまな LLM プロバイダーの使用と管理を効率化できます。

注

AI Playground を使用して、サポートされている大規模言語モデルを操作できます。AI Playground は、LLM のテスト、プロンプト、比較を行うことができるチャットのような環境です。この機能は、Databricks ワークスペースで使用できます。

モデルサービングを使用する理由

任意のモデルのデプロイとクエリ: モデルサービングは、Databricks でホストされているか外部でホストされているかに関係なく、すべてのモデルを 1 つの場所で管理し、1 つの API でクエリを実行できる統合インターフェイスを提供します。このアプローチにより、さまざまなクラウドやプロバイダー間で本番運用のモデルを使用したエクスペリメント、カスタマイズ、およびデプロイのプロセスが簡素化されます。
プライベートデータを使用してモデルを安全にカスタマイズ: データインテリジェンスプラットフォーム上に構築されたモデルサービングは、 Databricks Feature StoreおよびMosaic AI Vector Searchとのネイティブ統合を通じて、モデルへの特徴とエンベディングの統合を簡素化します。精度とコンテキストの理解をさらに向上させるために、モデルを独自のデータでファインチューニングし、モデルサービングに簡単に展開できます。
モデルの管理と監視: Serving UI を使用すると、外部でホストされているエンドポイントを含め、すべてのモデルエンドポイントを 1 か所で一元的に管理できます。 AI Gateway を使用して、権限の管理、使用制限の追跡と設定、すべてのタイプのモデルの品質のモニタリングを行うことができます。これにより、SaaSへのアクセスを民主化し、組織内でLLMを開放しながら、適切なガードレールを確保することができます。
最適化された推論と高速スケーリングによるコスト削減:Databricks は、大規模モデルに対して最高のスループットとレイテンシを実現するために、さまざまな最適化を実装しています。エンドポイントは、需要の変化に合わせて自動的にスケールアップまたはスケールダウンし、インフラストラクチャのコストを節約しながら、レイテンシパフォーマンスを最適化します。モデルサービングのコストを監視する。
モデルサービングに信頼性とセキュリティをもたらす: モデルサービングは、高可用性、低レイテンシの本番運用用に設計されており、50 ミリ秒未満のオーバーヘッド待機時間で毎秒 25K を超えるクエリをサポートできます。サービスワークロードは複数のセキュリティ層によって保護され、最も機密性の高いタスクに対しても安全で信頼性の高い環境を確保します。

注

モデルサービングは、本番運用の展開が不安定になるリスクがあるため、既存のモデルイメージにセキュリティパッチを提供しません。新しいモデルバージョンから作成された新しいモデルイメージには、最新のパッチが含まれます。詳細については、 Databricksアカウントチームにお問い合わせください。

要件

Unity Catalog年にモデル登録。
登録済みモデルに対するアクセス許可 ( 「サービングエンドポイント ACL」を参照)。
MLflow 1.29以降

ワークスペースでモデルサービングを有効にする

ワークスペースでモデルサービングを有効にするために追加の手順は必要ありません。

制限事項と利用可能なリージョン

Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するためにデフォルトの制限が課せられます。モデルサービングの制限とリージョンを参照してください。これらの制限やサポートされていないリージョンのエンドポイントに関するフィードバックがある場合は、Databricks アカウントチームにお問い合わせください。

モデルサービングにおけるデータ保護

Databricks はデータセキュリティを真剣に受け止めています。 Databricks は、Mosaic AI Model Serving を使用して分析するデータの重要性を理解しており、データを保護するために次のセキュリティ制御を実装しています。

モデルサービングに対するすべての顧客の要求は、論理的に分離され、認証され、承認されます。
Mosaic AI Model Serving は、保存中のすべてのデータ (AES-256) と転送中のすべてのデータ (TLS 1.2+) を暗号化します。

すべての有料アカウントについて、 Mosaic AI Model Servingサービスに送信されたユーザー入力やサービスからの出力を、モデルの作成やDatabricksサービスの改善に使用しません。

Databricks基盤モデルAPIsについては、サービスの提供の一環として、Databricks、乱用または有害な使用を防止、検出、および軽減する目的で、入力と出力を一時的に処理および保存する場合があります。お客様の入力と出力は、他の顧客の入力と出力から分離され、ワークスペースと同じリージョンに最大 30 日間保存され、セキュリティや不正使用の懸念を検出して対応するためにのみアクセスできます。基盤モデル APIs は Databricks Designated サービスであり、Databricks Geosによって実装されているデータレジデンシーの境界に準拠しています。