MLflow para o agente gen AI e o ciclo de vida do modelo ML

Este artigo descreve como MLflow o site on Databricks é usado para desenvolver agentes generativos de alta qualidade AI e modelos de aprendizado de máquina.

Observação

Se o senhor estiver começando a usar o Databricks, considere experimentar o MLflow on Databricks Community Edition.

O que é MLflow?

MLflow é uma plataforma de código aberto para o desenvolvimento de modelos e aplicativos generativos AI. Ele tem os seguintes componentes principais:

  • acompanhamento: Permite acompanhar experimentos para registrar e comparar parâmetros e resultados.

  • Modelos: Permite que o senhor gerencie e implante modelos de várias ML bibliotecas para várias plataformas de modelo de serviço e inferência.

  • Model Registry: Permite que o senhor gerencie o processo de implementação de modelos, desde a preparação até a produção, com recursos de versão e anotação de modelos.

  • AI Avaliação e rastreamento de agentes: Permite que o senhor desenvolva agentes de alta qualidade no site AI, ajudando-o a comparar, avaliar e solucionar problemas de agentes.

MLflow oferece suporte a APIs Java, Python, R e REST .

Databricks-gerenciar MLflow

Databricks oferece uma versão totalmente gerenciada e hospedada do MLflow, com base na experiência do código aberto para torná-lo mais robusto e dimensionável para uso corporativo.

O diagrama a seguir mostra como o Databricks se integra ao MLflow para treinar e implantar o modelo de aprendizado de máquina.

O MLflow se integra ao Databricks para gerenciar o ciclo de vida do ML.

Databricks-gerenciar MLflow foi desenvolvido com base em Unity Catalog e no lago de dados da nuvem para unificar todos os seus dados e AI ativos no ciclo de vida ML:

  1. recurso store: Databricks pesquisas automatizadas de recurso simplificam a integração e reduzem os erros.

  2. Treine modelos: Use o Mosaic AI para treinar modelos ou ajustar modelos básicos.

  3. acompanhamento: MLflow acompanha o treinamento registrando parâmetros, métricas e artefatos para avaliar e comparar o desempenho do modelo.

  4. Model Registry: MLflow Model Registry, integrado ao Unity Catalog, centraliza os modelos e artefatos do AI.

  5. servindo modelo: Mosaic AI Model Serving implantado modelos para a REST API endpoint.

  6. monitoramento: o site Mosaic AI Model Serving captura automaticamente solicitações e respostas para monitorar e depurar modelos. O MLflow aumenta esses dados com dados de rastreamento para cada solicitação.

Modelo treinamento

MLflow Os modelos estão no centro do desenvolvimento de AI e ML em Databricks. MLflow Os modelos são um formato padronizado para o empacotamento de modelos de aprendizado de máquina e de agentes AI generativos. O formato padronizado garante que os modelos e agentes possam ser usados por ferramentas downstream e fluxo de trabalho em Databricks.

  • Documentação do MLflow - Modelos.

Databricks fornece recurso para ajudá-lo a treinar diferentes tipos de modelos ML.

Experimentar acompanhamento

A Databricks usa experimentos MLflow como unidades organizacionais para acompanhar seu trabalho durante o desenvolvimento de modelos.

O acompanhamento de experimentos permite que o senhor log e gerencie parâmetros, métricas, artefatos e versões de código durante o treinamento de aprendizado de máquina e o desenvolvimento de agentes. A organização do logs em experimentos e execução permite comparar modelos, analisar o desempenho e iterar com mais facilidade.

Model Registry com Unity Catalog

O MLflow Model Registry é um repositório de modelos centralizado, uma interface do usuário e um conjunto de APIs para gerenciar o processo de implantação de modelos.

A Databricks integra o Model Registry ao Unity Catalog para fornecer governança centralizada para modelos. Unity Catalog permite que o senhor acesse modelos em todo o espaço de trabalho, rastreie a linhagem do modelo e descubra modelos para reutilização.

Servindo modelo

Databricks O servindo modelo é totalmente integrado ao MLflow Model Registry e oferece uma interface unificada e escalonável para implantar, governar e consultar modelos AI. Cada modelo que o senhor atende está disponível como uma API REST que pode ser integrada a aplicativos da Web ou de clientes.

Embora sejam componentes distintos, o servindo modelo depende muito do MLflow Model Registry para lidar com a versão do modelo, o gerenciamento de dependências, a validação e a governança.

código aberto vs. Databricks-gerenciar MLflow recurso

Para conhecer os conceitos gerais do MLflow, APIs e os recursos compartilhados entre as versões do código aberto e do Databricks-gerenciar, consulte a documentação doMLflow . Para o recurso exclusivo do Databricks-gerenciar MLflow, consulte a documentação da Databricks.

A tabela a seguir destaca as diferenças key entre o código aberto MLflow e Databricks-gerenciar MLflow e fornece links de documentação para ajudá-lo a saber mais:

Recurso

Disponibilidade no MLflow de código aberto

Disponibilidade em Databricks-gerenciar MLflow

Segurança

O usuário deve fornecer sua própria camada de governança de segurança

Segurança de nível empresarial da Databricks

Disaster recovery

Indisponível

Recuperação de desastres da Databricks

Acompanhamento de experimentos

API de acompanhamento do MLflow

MLflow acompanhamento API integrado com Databricks acompanhamento avançado de experimentos

Registro de modelos

MLflow Model Registry

MLflow Model Registry integrado com Databricks Unity Catalog

Integração com o Unity Catalog

Integração de código aberto com o Unity Catalog

Databricks Unity Catalog

Implantação de modelos

Integrações configuradas pelo usuário com soluções de serviço externas (SageMaker, Kubernetes, qualquer serviço de contêiner, etc.)

Databricks servindo modelo e soluções de serviço externo

AI agentes

Desenvolvimento do MLflow LLM

Desenvolvimento do MLflow LLM

Criptografia

Indisponível

Criptografia usando a chave gerenciadora do cliente