中芸汇科技
Commerce de détailAIMLOpsAutomatisationChine

Projet d'optimisation des opérations MLOps pour le système de recommandation IA d'une plateforme e-commerce

Projet d'optimisation des opérations MLOps pour le système de recommandation IA d'une plateforme e-commerce

Contexte du projet

Une grande plateforme e-commerce dispose de plus de 10 modèles de recommandation en ligne, couvrant la page d'accueil, les pages de détails des produits, le panier d'achat et d'autres scénarios. Cependant, la maintenance des modèles était entièrement manuelle, sans surveillance unifiée ni mécanisme d'itération automatique. L'utilisation du GPU n'était que de 35 %, pour un coût mensuel de 800 000 yuans. Le retard dans la mise à jour des modèles entraînait une dégradation progressive des performances des recommandations, tandis que l'équipe opérationnelle, épuisée, ne parvenait pas à améliorer l'efficacité du système. Il était urgent de mettre en place un système MLOps pour automatiser les opérations.

Problématiques principales

  • Utilisation GPU extrêmement faible : Plus de 10 modèles partagés sur un cluster GPU, avec une utilisation de seulement 35 %, pour un coût mensuel de 800 000 yuans.
  • Itération lente des modèles : De la préparation des données à la mise en ligne, 2 semaines étaient nécessaires, empêchant une réponse rapide aux changements métier.
  • Absence de surveillance unifiée : Les indicateurs de performance des modèles étaient dispersés, les anomalies détectées tardivement, impactant l'expérience utilisateur.
  • Manque de personnel opérationnel : Une équipe de 3 personnes gérait plus de 10 modèles, constamment submergée par les problèmes quotidiens, sans temps pour l'optimisation.
  • Solution

    Mise en place d'une plateforme MLOps de bout en bout

    Construction d'une plateforme MLOps de bout en bout, couvrant la collecte de données, l'ingénierie des caractéristiques, l'entraînement des modèles, l'évaluation et le déploiement progressif (canary release), pour une gestion automatisée du cycle de vie des modèles. Le délai de mise en ligne d'un nouveau modèle est passé de 2 semaines à 2 jours, avec un support des tests A/B et des déploiements progressifs, réduisant ainsi les risques de mise en production.

    Ordonnancement intelligent des ressources GPU

    Développement d'un système d'ordonnancement intelligent des ressources GPU, qui alloue dynamiquement les ressources en fonction de la prédiction du trafic des modèles, prend en charge le chargement à chaud des modèles et la mise à l'échelle élastique. Mise à l'échelle automatique en période de pointe, réduction automatique en période creuse, l'utilisation du GPU est passée de 35 % à 82 %.

    Système de surveillance des modèles 24/7

    Mise en place d'un système de surveillance complet des modèles, couvrant des indicateurs clés tels que la précision des prédictions, la latence, le débit et la dérive de la distribution des données. Les anomalies déclenchent des alertes automatiques et un réentraînement des modèles, garantissant ainsi des performances de recommandation optimales en continu.

    Résultats

    IndicateurAvantAprèsAmélioration
    Utilisation GPU35%82%134%
    Coût GPU mensuel800 000 yuans440 000 yuans45%
    Cycle d'itération du modèle2 semaines2 jours86%
    Temps de détection des anomalies24 heures5 minutes97%

    Stack technologique

    Kubernetes, Kubeflow, MLflow, Prometheus, Grafana, NVIDIA GPU Operator, Python, Airflow

    Après l'optimisation MLOps, une équipe de 3 personnes gère facilement plus de 10 modèles, les coûts GPU ont diminué de 45 % et les performances des recommandations continuent de s'améliorer.