modelos implantados usando Mosaic AI Model Serving

Prévia

Esse recurso está em Public Preview e é compatível com os sites us-east1 e us-central1.

Este artigo descreve o site Mosaic AI Model Serving, as soluções Databricks para modelos implantados AI e ML para atendimento em tempo real e inferência de lotes.

O que é o Mosaic AI Model Serving?

Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos AI para inferência de tempo real. Cada modelo que o senhor atende está disponível como uma API REST que pode ser integrada ao seu aplicativo da Web ou cliente.

O servindo modelo fornece um serviço altamente disponível e de baixa latência para modelos implantados. O serviço aumenta ou diminui automaticamente para atender às mudanças na demanda, economizando custos de infraestrutura e otimizando o desempenho da latência. Essa funcionalidade usa serverless compute. Consulte a página servindo modelo preços para obter mais detalhes.

A servindo modelo oferece um REST API e MLflow Deployment API unificados para CRUD e tarefa de consulta. Além disso, ele oferece uma única interface de usuário para gerenciar todos os seus modelos e seus respectivos endpoints de atendimento.

Veja o guia a seguir para começar:

Para obter uma introdução tutorial sobre como servir modelos personalizados no Databricks, consulte Tutorial: implantar e consultar um modelo personalizado.
Para atender a um modelo básico hospedado fora do Databricks, consulte _.

Modelos que o senhor pode implantar

Modelos personalizados. Esses são os modelos Python pacote no formato MLflow. Eles devem ser registrados no Unity Catalog. Os exemplos incluem os modelos de transformadores scikit-learn, XGBoost, PyTorch e Hugging Face.
Modelos de fundação.
- Modelos de base hospedados pela Databricks, como o GTE-Large. Esses modelos estão disponíveis usando o Foundation Model APIsprovisionamento Taxa de transferência. Esses modelos são arquiteturas de modelos básicos com curadoria ou variantes de modelos ajustados que oferecem suporte à inferência otimizada para cargas de trabalho que exigem garantias de desempenho.
- Modelos básicos hospedados fora do Databricks, como o GPT-4 da OpenAI. Esses modelos são acessíveis usando modelos externos. O endpoint que atende a esses modelos pode ser controlado de forma centralizada em Databricks, para que o senhor possa simplificar o uso e o gerenciamento de vários provedores de LLM, como OpenAI e Anthropic, em sua organização.

Por que usar o Serviço de Modelo?

implantar e consultar quaisquer modelos: o modelo prático fornece uma interface unificada que permite gerenciar todos os modelos em um único local e consultá-los com uma única API, independentemente de estarem hospedados no Databricks ou externamente. Essa abordagem simplifica o processo de experimentação, personalização e implantação de modelos em produção em diversas clouds e provedores.
Reduza o custo com inferência otimizada e dimensionamento rápido: o site Databricks implementou uma série de otimizações para garantir que o senhor obtenha a melhor taxa de transferência e latência para modelos grandes. O endpoint aumenta ou diminui automaticamente para atender às mudanças na demanda, economizando custos de infraestrutura e otimizando o desempenho da latência. Monitorar os custos do modelo de serviço.
Traga confiabilidade e segurança ao modelo de atividade: o modelo de atividade foi projetado para uso em produção de alta disponibilidade e baixa latência e pode suportar mais de 25 mil consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho de serviço são protegidas por múltiplas camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais sensíveis.

Observação

A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão de modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.

Requisitos

Modelo registrado no Unity Catalog.
Permissões nos modelos registrados, conforme descrito em Serving endpoint ACLs.
MLflow 1.29 ou superior

Habilite o modelo disponível para seu espaço de trabalho

Nenhuma passo adicional é necessária para habilitar Model Serving em seu workspace.

Limitações e disponibilidade da região

Mosaic AI Model Serving impõe default limites para garantir um desempenho confiável. Veja servindo modelo limites e regiões. Se o senhor tiver comentários sobre esses limites ou sobre um endpoint em uma região sem suporte, entre em contato com a equipe do Databricks account .

Proteção de dados no modelo de atividade

A Databricks leva a segurança dos dados a sério. A Databricks entende a importância dos dados que o senhor analisa usando o Mosaic AI Model Serving e implementa os seguintes controles de segurança para proteger seus dados.

Cada solicitação do cliente ao modelo de operação é logicamente isolada, autenticada e autorizada.
O Mosaic AI Model Serving criptografa todos os dados em repouso (AES-256) e em trânsito (TLS 1.2+).

Para todas as contas pagas, o Mosaic AI Model Serving não usa as entradas do usuário enviadas ao serviço ou os resultados do serviço para ensinar quaisquer modelos ou melhorar qualquer serviço do Databricks.

Para as APIs do Databricks Foundation Model, como parte do fornecimento do serviço, a Databricks pode processar e armazenar temporariamente entradas e saídas para fins de prevenção, detecção e mitigação de abuso ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região que seu workspace por até 30 (trinta) dias e acessíveis apenas para detectar e responder a questões de segurança ou abuso. O Foundation Model APIs é um serviço designado pela Databricks, o que significa que ele adere aos limites de residência de dados, conforme implementado pelo Databricks Geos.