Contexto do Projeto
Uma grande plataforma de e-commerce possui mais de 10 modelos de recomendação online, cobrindo diversos cenários como recomendação na página inicial, páginas de detalhes de produtos e carrinho de compras. No entanto, a operação dos modelos era totalmente manual, sem monitoramento unificado e mecanismos de iteração automática. A utilização da GPU era de apenas 35%, com um custo mensal de 800 mil. A lentidão nas atualizações dos modelos levava a uma queda gradual na eficácia das recomendações. A equipe de operações estava sobrecarregada, mas não conseguia melhorar efetivamente a eficiência do sistema, sendo urgente a introdução de um sistema MLOps para automatizar as operações.
Principais Desafios
Solução
Construção de Plataforma MLOps de Ponta a Ponta
Construção de uma plataforma MLOps de ponta a ponta, abrangendo coleta de dados, engenharia de características, treinamento de modelos, avaliação de modelos e implantação gradual, automatizando a gestão do ciclo de vida dos modelos. O tempo desde o treinamento até a implantação de um novo modelo foi reduzido de 2 semanas para 2 dias, com suporte a testes A/B e implantação gradual, reduzindo os riscos de lançamento.
Agendamento Inteligente de Recursos de GPU
Desenvolvimento de um sistema inteligente de agendamento de recursos de GPU, que aloca dinamicamente os recursos com base na previsão de tráfego dos modelos, suportando carregamento a quente de modelos e elasticidade. Expansão automática em horários de pico e redução automática em períodos de baixa, elevando a utilização da GPU de 35% para 82%.
Sistema de Monitoramento de Modelos 24×7
Estabelecimento de um sistema abrangente de monitoramento de modelos 24×7, cobrindo indicadores-chave como precisão da previsão, latência, taxa de transferência e desvio na distribuição dos dados. Alertas automáticos de anomalias acionam processos de retreinamento dos modelos, garantindo a eficácia ideal contínua da recomendação.
Resultados
| Indicador | Antes da transformação | Após a transformação | Melhoria |
|---|---|---|---|
| Utilização da GPU | 35% | 82% | 134% |
| Custo mensal de GPU | 800 mil | 440 mil | 45% |
| Ciclo de iteração de modelos | 2 semanas | 2 dias | 86% |
| Tempo de detecção de anomalias | 24 horas | 5 minutos | 97% |
Stack Tecnológico
Kubernetes, Kubeflow, MLflow, Prometheus, Grafana, NVIDIA GPU Operator, Python, Airflow