中芸汇科技
التجزئةالذكاء الاصطناعيMLOpsالأتمتةالصين

مشروع تحسين عمليات MLOps لنظام التوصية بالذكاء الاصطناعي على منصة تجارة إلكترونية

مشروع تحسين عمليات MLOps لنظام التوصية بالذكاء الاصطناعي على منصة تجارة إلكترونية

خلفية المشروع

تمتلك منصة تجارة إلكترونية كبيرة أكثر من 10 نماذج توصية عبر الإنترنت، تغطي توصيات الصفحة الرئيسية وصفحات تفاصيل المنتج وعربة التسوق وغيرها من السيناريوهات. ومع ذلك، كانت إدارة النماذج تتم يدويًا بالكامل، مع نقص في المراقبة الموحدة وآلية التكرار التلقائي، وكان استخدام GPU 35٪ فقط، وبلغت التكلفة الشهرية 800 ألف يوان. تسبب تأخر تحديث النماذج في انخفاض تدريجي لأداء التوصية، بينما كان فريق العمليات مرهقًا وغير قادر على تحسين كفاءة النظام بشكل فعال، مما استدعى إدخال نظام MLOps لأتمتة العمليات.

نقاط الألم الرئيسية

  • معدل استخدام GPU منخفض للغاية: يتشارك أكثر من 10 نماذج مجموعة GPU، والاستخدام 35% فقط، والتكلفة الشهرية 800 ألف
  • تكرار النموذج البطيء: يستغرق أسبوعين من إعداد البيانات إلى النشر، ولا يمكن الاستجابة بسرعة لتغيرات الأعمال
  • نقص المراقبة الموحدة: مؤشرات أداء النموذج متفرقة، واكتشاف الأخطاء متأخر، مما يؤثر على تجربة المستخدم
  • نقص الموارد البشرية للتشغيل: فريق مكون من 3 أشخاص يدير أكثر من 10 نماذج، منهك في التعامل مع المشاكل اليومية، دون وقت للتحسين
  • الحل

    بناء منصة MLOps شاملة

    بناء منصة MLOps شاملة تشمل جمع البيانات، وهندسة الميزات، وتدريب النماذج، وتقييم النماذج، والإصدار التدريجي، مما يحقق إدارة تلقائية لدورة حياة النموذج. تم تقليص وقت النموذج الجديد من التدريب إلى النشر من أسبوعين إلى يومين، مع دعم اختبار A/B والإصدار التدريجي لتقليل مخاطر النشر.

    جدولة ذكية لموارد GPU

    تطوير نظام جدولة ذكي لموارد GPU، يعتمد على التنبؤ بحركة مرور النماذج لتوزيع موارد GPU ديناميكيًا، ويدعم التحميل الساخن للنماذج والتوسع المرن. التوسع التلقائي في أوقات الذروة، والتقليص التلقائي في الأوقات المنخفضة، مما رفع استخدام GPU من 35% إلى 82%.

    نظام مراقبة النماذج على مدار الساعة طوال أيام الأسبوع

    إنشاء نظام مراقبة شامل للنماذج، يغطي مؤشرات رئيسية مثل دقة التنبؤ، ووقت الاستجابة، والإنتاجية، وانحراف توزيع البيانات. إطلاق إنذار تلقائي عند حدوث خلل وتفعيل عملية إعادة تدريب النموذج، لضمان استمرار الأداء الأمثل للتوصية.

    بيانات النتائج

    المؤشرقبل التحسينبعد التحسينالتحسين
    استخدام GPU35%82%134%
    التكلفة الشهرية لـ GPU800 ألف440 ألف45%
    دورة تكرار النموذجأسبوعينيومين86%
    وقت اكتشاف أخطاء النموذج24 ساعة5 دقائق97%

    المكدس التقني

    Kubernetes، Kubeflow، MLflow، Prometheus، Grafana، NVIDIA GPU Operator، Python، Airflow

    بعد تحسين MLOps، تمكن فريق من 3 أشخاص من إدارة أكثر من 10 نماذج بسهولة، وخفضت تكلفة GPU بنسبة 45% مع استمرار تحسين أداء التوصية.