O que são pilhas MLOps?

MLOps Stacks automatiza a criação de infraestrutura para um fluxo de trabalho de projeto de ML. Ele configura os elementos necessários para implementar e operar ML para implantação contínua em ambientes de desenvolvimento, preparação e produção, incluindo:

  • ML pipelines para treinamento, implantação e inferência de modelos.

  • tabelas de recursos.

  • Liberar pipeline para produção.

MLOps Stacks está totalmente integrado ao Databricks CLI e Databricks ativo Bundles, fornecendo um único conjunto de ferramentas para desenvolver, testar e implantar dados e ML ativo no Databricks. O ambiente criado pelo MLOps Stacks implementa o fluxo de trabalho MLOps recomendado pelo Databricks. Você pode personalizar o código para criar pilhas que correspondam aos processos ou requisitos da sua organização.

Este artigo explica como funciona o MLOps Stacks e descreve a estrutura do projeto criado pelo MLOps.

Componentes de pilhas MLOps

Uma “pilha” refere-se ao conjunto de ferramentas usadas em um processo de desenvolvimento. A pilha MLOps default aproveita a plataforma unificada do Databricks e usa as seguintes ferramentas:

Como funciona o MLOps Stacks?

Você usa a CLI do Databricks para criar uma pilha MLOps. Para obter instruções passo a passo, consulte Databricks ativo Bundles for MLOps Stacks.

Quando você inicia um projeto MLOps Stacks, o software orienta você na inserção dos detalhes de configuração e, em seguida, cria um diretório contendo os arquivos que compõem seu projeto. Este diretório, ou pilha, implementa o fluxo de trabalho de produção MLOps recomendado pelo Databricks. Os componentes mostrados no diagrama são criados para você e você só precisa editar os arquivos para adicionar seu código personalizado.

Diagrama de componentes MLOps Stacks

Sua organização pode usar a pilha default ou personalizá-la conforme necessário para adicionar, remover ou revisar componentes para se adequar às práticas da sua organização. Consulte o leia-me do repositório GitHub para obter detalhes.

MLOps Stacks foi projetado com uma estrutura modular para permitir que diferentes equipes de ML trabalhem de forma independente em um projeto, seguindo as práticas recomendadas de engenharia de software e mantendo CI/CD de nível de produção. Os engenheiros de produção configuram a infraestrutura de ML que permite ao cientista de dados desenvolver, testar e implantar ML pipelines para produção.

Conforme mostrado nas caixas verdes do diagrama, os três componentes de código do Databricks de uma pilha MLOps são os seguintes:

  • Código ML. Um cientista de dados pode criar código num Databricks Notebook ou num IDE local. Você pode usar GitHub ou Azure DevOps para controle do código-fonte. Conforme mostrado no diagrama, quando o projeto é criado, ele está em estado executável com código de exemplo. Você edita ou substitui esse código pelo seu próprio código.

  • configurações de recursos. Esses .yml Os arquivos definem o fluxo de trabalho individual que compõem o projeto, como treinamento e inferência de lotes Job. Eles são configurados e implantados usando pacotes CLI do Databricks. Ao definir esses recursos em .yml arquivos, você pode controlar, auditar e implantar alterações usando solicitações pull em vez de alterações não rastreáveis feitas usando a IU.

  • Fluxo de trabalho CI/CD. Implementado usando GitHub Actions ou Azure DevOps em conjunto com o fluxo de trabalho do Databricks, esse fluxo de trabalho testa e implanta o código de ML (para treinamento de modelo, inferência de lotes e assim por diante) e as configurações de recurso de ML do Databricks em todo o seu desenvolvimento, preparação e workspace de produção. Assim como acontece com os arquivos recurso, esse fluxo de trabalho automatiza todas as alterações de produção e garante que apenas o código testado seja implantado na produção.

Estrutura do projeto MLOps Stacks

Uma pilha MLOps usa Databricks ativo Bundles – uma coleção de arquivos de origem que serve como a definição ponta a ponta de um projeto. Esses arquivos fonte incluem informações sobre como serão testados e implantados. Coletar os arquivos como um pacote facilita a coversão de alterações e o uso das melhores práticas de engenharia de software, como controle de origem, revisão de código, testes e CI/CD.

O diagrama mostra os arquivos criados para a pilha MLOps default . Para obter detalhes sobre os arquivos incluídos na pilha, consulte a documentação no repositório GitHub ou Databricks ativo Bundles for MLOps Stacks.

Estrutura de diretório do MLops Stacks

Próximos passos

Para começar, consulte Pacotes Databricks ativos para pilhas MLOps.