中芸汇科技
MinoristaAIMLOpsAutomatizaciónChina

Proyecto de optimización de operaciones MLOps para el sistema de recomendación de IA de una plataforma de comercio electrónico

Proyecto de optimización de operaciones MLOps para el sistema de recomendación de IA de una plataforma de comercio electrónico

Antecedentes del proyecto

Una gran plataforma de comercio electrónico cuenta con más de 10 modelos de recomendación en línea, que cubren escenarios como la página de inicio, la página de detalles del producto y el carrito de compras. Sin embargo, las operaciones de los modelos dependían completamente de procesos manuales, carecían de monitoreo unificado y de mecanismos de iteración automática. La utilización de GPU era solo del 35% y el costo mensual ascendía a 800.000 yuanes. El retraso en la actualización de los modelos provocaba una disminución gradual en la efectividad de las recomendaciones, mientras que el equipo de operaciones estaba desbordado sin poder mejorar la eficiencia del sistema. Era urgente implementar un sistema MLOps para automatizar las operaciones.

Puntos críticos

  • Utilización de GPU extremadamente baja: Más de 10 modelos comparten el clúster de GPU, con una utilización de solo el 35% y un costo mensual de 800.000.
  • Iteración lenta de modelos: Desde la preparación de datos hasta el lanzamiento se requerían 2 semanas, lo que impedía una respuesta rápida a los cambios del negocio.
  • Falta de monitoreo unificado: Las métricas de rendimiento de los modelos estaban dispersas, la detección de anomalías era tardía y afectaba la experiencia del usuario.
  • Insuficiencia de personal de operaciones: Un equipo de 3 personas gestionaba más de 10 modelos, agotándose en resolver problemas diarios sin tiempo para optimizar.
  • Solución

    Construcción de una plataforma MLOps de extremo a extremo

    Se construyó una plataforma MLOps integral que cubre desde la recopilación de datos, ingeniería de características, entrenamiento de modelos, evaluación de modelos hasta el despliegue gradual, logrando la gestión automatizada del ciclo de vida de los modelos. El tiempo desde el entrenamiento de un nuevo modelo hasta su puesta en producción se redujo de 2 semanas a 2 días, con soporte para pruebas A/B y despliegues canary, reduciendo los riesgos de lanzamiento.

    Programación inteligente de recursos de GPU

    Se desarrolló un sistema inteligente de programación de recursos de GPU que asigna dinámicamente los recursos de GPU en función de la predicción del tráfico de los modelos, con soporte para carga en caliente de modelos y escalado elástico. Se amplía automáticamente en horas pico y se reduce en horas valle, aumentando la utilización de GPU del 35% al 82%.

    Sistema de monitoreo de modelos 24/7

    Se estableció un sistema integral de monitoreo de modelos que cubre métricas clave como la precisión de las predicciones, la latencia, el rendimiento y la deriva en la distribución de datos. Las anomalías generan alertas automáticas y desencadenan procesos de reentrenamiento del modelo, garantizando que la efectividad de las recomendaciones se mantenga óptima.

    Datos de resultados

    IndicadorAntesDespuésMejora
    Utilización de GPU35%82%134%
    Costo mensual de GPU800.000440.00045%
    Ciclo de iteración del modelo2 semanas2 días86%
    Tiempo de detección de anomalías del modelo24 horas5 minutos97%

    Stack tecnológico

    Kubernetes、Kubeflow、MLflow、Prometheus、Grafana、NVIDIA GPU Operator、Python、Airflow

    Tras la optimización MLOps, un equipo de 3 personas gestiona fácilmente más de 10 modelos, los costos de GPU se redujeron un 45% y la eficacia de las recomendaciones sigue mejorando.