خلفية المشروع
تمتلك منصة تجارة إلكترونية كبيرة أكثر من 10 نماذج توصية عبر الإنترنت، تغطي توصيات الصفحة الرئيسية وصفحات تفاصيل المنتج وعربة التسوق وغيرها من السيناريوهات. ومع ذلك، كانت إدارة النماذج تتم يدويًا بالكامل، مع نقص في المراقبة الموحدة وآلية التكرار التلقائي، وكان استخدام GPU 35٪ فقط، وبلغت التكلفة الشهرية 800 ألف يوان. تسبب تأخر تحديث النماذج في انخفاض تدريجي لأداء التوصية، بينما كان فريق العمليات مرهقًا وغير قادر على تحسين كفاءة النظام بشكل فعال، مما استدعى إدخال نظام MLOps لأتمتة العمليات.
نقاط الألم الرئيسية
الحل
بناء منصة MLOps شاملة
بناء منصة MLOps شاملة تشمل جمع البيانات، وهندسة الميزات، وتدريب النماذج، وتقييم النماذج، والإصدار التدريجي، مما يحقق إدارة تلقائية لدورة حياة النموذج. تم تقليص وقت النموذج الجديد من التدريب إلى النشر من أسبوعين إلى يومين، مع دعم اختبار A/B والإصدار التدريجي لتقليل مخاطر النشر.
جدولة ذكية لموارد GPU
تطوير نظام جدولة ذكي لموارد GPU، يعتمد على التنبؤ بحركة مرور النماذج لتوزيع موارد GPU ديناميكيًا، ويدعم التحميل الساخن للنماذج والتوسع المرن. التوسع التلقائي في أوقات الذروة، والتقليص التلقائي في الأوقات المنخفضة، مما رفع استخدام GPU من 35% إلى 82%.
نظام مراقبة النماذج على مدار الساعة طوال أيام الأسبوع
إنشاء نظام مراقبة شامل للنماذج، يغطي مؤشرات رئيسية مثل دقة التنبؤ، ووقت الاستجابة، والإنتاجية، وانحراف توزيع البيانات. إطلاق إنذار تلقائي عند حدوث خلل وتفعيل عملية إعادة تدريب النموذج، لضمان استمرار الأداء الأمثل للتوصية.
بيانات النتائج
| المؤشر | قبل التحسين | بعد التحسين | التحسين |
|---|---|---|---|
| استخدام GPU | 35% | 82% | 134% |
| التكلفة الشهرية لـ GPU | 800 ألف | 440 ألف | 45% |
| دورة تكرار النموذج | أسبوعين | يومين | 86% |
| وقت اكتشاف أخطاء النموذج | 24 ساعة | 5 دقائق | 97% |
المكدس التقني
Kubernetes، Kubeflow، MLflow، Prometheus، Grafana، NVIDIA GPU Operator، Python، Airflow