Contexte du projet
Une grande plateforme e-commerce dispose de plus de 10 modèles de recommandation en ligne, couvrant la page d'accueil, les pages de détails des produits, le panier d'achat et d'autres scénarios. Cependant, la maintenance des modèles était entièrement manuelle, sans surveillance unifiée ni mécanisme d'itération automatique. L'utilisation du GPU n'était que de 35 %, pour un coût mensuel de 800 000 yuans. Le retard dans la mise à jour des modèles entraînait une dégradation progressive des performances des recommandations, tandis que l'équipe opérationnelle, épuisée, ne parvenait pas à améliorer l'efficacité du système. Il était urgent de mettre en place un système MLOps pour automatiser les opérations.
Problématiques principales
Solution
Mise en place d'une plateforme MLOps de bout en bout
Construction d'une plateforme MLOps de bout en bout, couvrant la collecte de données, l'ingénierie des caractéristiques, l'entraînement des modèles, l'évaluation et le déploiement progressif (canary release), pour une gestion automatisée du cycle de vie des modèles. Le délai de mise en ligne d'un nouveau modèle est passé de 2 semaines à 2 jours, avec un support des tests A/B et des déploiements progressifs, réduisant ainsi les risques de mise en production.
Ordonnancement intelligent des ressources GPU
Développement d'un système d'ordonnancement intelligent des ressources GPU, qui alloue dynamiquement les ressources en fonction de la prédiction du trafic des modèles, prend en charge le chargement à chaud des modèles et la mise à l'échelle élastique. Mise à l'échelle automatique en période de pointe, réduction automatique en période creuse, l'utilisation du GPU est passée de 35 % à 82 %.
Système de surveillance des modèles 24/7
Mise en place d'un système de surveillance complet des modèles, couvrant des indicateurs clés tels que la précision des prédictions, la latence, le débit et la dérive de la distribution des données. Les anomalies déclenchent des alertes automatiques et un réentraînement des modèles, garantissant ainsi des performances de recommandation optimales en continu.
Résultats
| Indicateur | Avant | Après | Amélioration |
|---|---|---|---|
| Utilisation GPU | 35% | 82% | 134% |
| Coût GPU mensuel | 800 000 yuans | 440 000 yuans | 45% |
| Cycle d'itération du modèle | 2 semaines | 2 jours | 86% |
| Temps de détection des anomalies | 24 heures | 5 minutes | 97% |
Stack technologique
Kubernetes, Kubeflow, MLflow, Prometheus, Grafana, NVIDIA GPU Operator, Python, Airflow