中芸汇科技
VarejoAIMLOpsAutomaçãoChina

Projeto de Otimização Operacional MLOps para Sistema de Recomendação de IA de E-commerce

Projeto de Otimização Operacional MLOps para Sistema de Recomendação de IA de E-commerce

Contexto do Projeto

Uma grande plataforma de e-commerce possui mais de 10 modelos de recomendação online, cobrindo diversos cenários como recomendação na página inicial, páginas de detalhes de produtos e carrinho de compras. No entanto, a operação dos modelos era totalmente manual, sem monitoramento unificado e mecanismos de iteração automática. A utilização da GPU era de apenas 35%, com um custo mensal de 800 mil. A lentidão nas atualizações dos modelos levava a uma queda gradual na eficácia das recomendações. A equipe de operações estava sobrecarregada, mas não conseguia melhorar efetivamente a eficiência do sistema, sendo urgente a introdução de um sistema MLOps para automatizar as operações.

Principais Desafios

  • Baixíssima utilização da GPU: Mais de 10 modelos compartilham o cluster de GPU, com utilização de apenas 35% e custo mensal de 800 mil.
  • Iteração lenta de modelos: Do preparo dos dados à implantação, leva 2 semanas, impossibilitando uma resposta rápida às mudanças de negócio.
  • Falta de monitoramento unificado: Os indicadores de desempenho dos modelos são dispersos e a detecção de anomalias é tardia, impactando a experiência do usuário.
  • Recursos humanos insuficientes: Uma equipe de 3 pessoas gerencia mais de 10 modelos, exausta para lidar com problemas diários e sem tempo para otimizações.
  • Solução

    Construção de Plataforma MLOps de Ponta a Ponta

    Construção de uma plataforma MLOps de ponta a ponta, abrangendo coleta de dados, engenharia de características, treinamento de modelos, avaliação de modelos e implantação gradual, automatizando a gestão do ciclo de vida dos modelos. O tempo desde o treinamento até a implantação de um novo modelo foi reduzido de 2 semanas para 2 dias, com suporte a testes A/B e implantação gradual, reduzindo os riscos de lançamento.

    Agendamento Inteligente de Recursos de GPU

    Desenvolvimento de um sistema inteligente de agendamento de recursos de GPU, que aloca dinamicamente os recursos com base na previsão de tráfego dos modelos, suportando carregamento a quente de modelos e elasticidade. Expansão automática em horários de pico e redução automática em períodos de baixa, elevando a utilização da GPU de 35% para 82%.

    Sistema de Monitoramento de Modelos 24×7

    Estabelecimento de um sistema abrangente de monitoramento de modelos 24×7, cobrindo indicadores-chave como precisão da previsão, latência, taxa de transferência e desvio na distribuição dos dados. Alertas automáticos de anomalias acionam processos de retreinamento dos modelos, garantindo a eficácia ideal contínua da recomendação.

    Resultados

    IndicadorAntes da transformaçãoApós a transformaçãoMelhoria
    Utilização da GPU35%82%134%
    Custo mensal de GPU800 mil440 mil45%
    Ciclo de iteração de modelos2 semanas2 dias86%
    Tempo de detecção de anomalias24 horas5 minutos97%

    Stack Tecnológico

    Kubernetes, Kubeflow, MLflow, Prometheus, Grafana, NVIDIA GPU Operator, Python, Airflow

    Após a otimização do MLOps, uma equipe de 3 pessoas gerencia facilmente mais de 10 modelos. O custo de GPU foi reduzido em 45% e a eficácia da recomendação continua melhorando.