servindo modelo limites e regiões
Prévia
O Mosaic AI Model Serving está em Public Preview e é compatível com os sites us-east1
e us-central1
.
Este artigo resume as limitações e a disponibilidade de regiões para Mosaic AI Model Serving e os tipos de endpoint compatíveis.
limites de recurso e carga útil
Mosaic AI Model Serving impõe default limites para garantir um desempenho confiável. Se o senhor tiver comentários sobre esses limites, entre em contato com a equipe Databricks account .
A tabela a seguir resume as limitações de recurso e carga útil para atender ao modelo de endpoint.
Recurso |
Granularidade |
Limite |
---|---|---|
Tamanho da carga útil |
Por solicitação |
16 MB. Para modelos externos que atendem a endpoints, o limite é de 4 MB. |
Consultas por segundo (QPS) |
Por workspace |
200, mas pode ser aumentado para 25.000 ou mais entrando em contato com a equipe da Databricks account. |
Duração da execução do modelo |
Por solicitação |
120 segundos |
Uso de memória do modelo de endpoint da CPU |
Por endpoint |
4 GB |
provisionamento concurrency |
Por workspace |
200 de simultaneidade. Pode ser aumentado entrando em contato com a equipe da Databricks account. |
Latência de sobrecarga |
Por solicitação |
Menos de 50 milissegundos |
Init scripts |
Os scripts de inicialização não são suportados. |
Limitações de rede e segurança
Os endpoints do modelo servindo são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no site workspace.
A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão de modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.
Modelo de Fundação APIs provisionamento Taxa de transferência limites
Os limites a seguir são relevantes para as cargas de trabalho do modelo da Fundação APIs provisionamento Taxa de transferência:
O provisionamento Taxa de transferência é compatível com o perfil HIPAA compliance e é recomendado para cargas de trabalho que exigem certificações compliance.
Somente a arquitetura do modelo GTE v1.5 (inglês) é suportada.
Disponibilidade da região
Observação
Se o senhor precisar de um endpoint em uma região sem suporte, entre em contato com a equipe da Databricks account.
Se o seu workspace estiver implantado em uma região que ofereça suporte ao servindo modelo, mas for atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao servindo modelo. Se o senhor tentar usar o servindo modelo em tal workspace, verá uma mensagem de erro informando que o seu workspace não é compatível. Entre em contato com a equipe do Databricks account para obter mais informações.
Para obter mais informações sobre a disponibilidade regional do recurso, consulte servindo modelo de disponibilidade regional.