परियोजना की पृष्ठभूमि
एक बड़े ई-कॉमर्स प्लेटफॉर्म में होमपेज अनुशंसा, उत्पाद विवरण पृष्ठ, शॉपिंग कार्ट आदि कई परिदृश्यों को कवर करने वाले 10+ ऑनलाइन अनुशंसा मॉडल हैं। हालाँकि, मॉडल का संचालन पूरी तरह से मैन्युअल था, एकीकृत निगरानी और स्वचालित पुनरावृत्ति तंत्र का अभाव था, GPU उपयोग सिर्फ 35% था और मासिक लागत 8 लाख युआन तक थी। मॉडल अपडेट में देरी के कारण अनुशंसा प्रभाव धीरे-धीरे कम होता गया, और संचालन टीम थकी हुई थी लेकिन सिस्टम दक्षता में प्रभावी ढंग से सुधार नहीं कर सकी, MLOps प्रणाली शुरू करने की तत्काल आवश्यकता थी।
मुख्य समस्याएँ
समाधान
एंड-टू-एंड MLOps प्लेटफ़ॉर्म का निर्माण
डेटा संग्रहण, फीचर इंजीनियरिंग, मॉडल प्रशिक्षण, मॉडल मूल्यांकन से लेकर ग्रे रिलीज़ तक का एंड-टू-एंड MLOps प्लेटफ़ॉर्म बनाया गया, जिससे मॉडल जीवनचक्र का स्वचालित प्रबंधन संभव हुआ। नए मॉडल को प्रशिक्षण से लेकर लॉन्च करने का समय 2 सप्ताह से घटकर 2 दिन हो गया, A/B परीक्षण और ग्रे रिलीज़ का समर्थन किया, लॉन्च जोखिम कम किया।
GPU संसाधनों का बुद्धिमान शेड्यूलिंग
GPU संसाधनों के लिए एक बुद्धिमान शेड्यूलिंग प्रणाली विकसित की गई, जो मॉडल ट्रैफ़िक पूर्वानुमान के आधार पर GPU संसाधनों को गतिशील रूप से आवंटित करती है, मॉडल हॉट-लोडिंग और इलास्टिक स्केलिंग का समर्थन करती है। पीक समय में स्वचालित रूप से विस्तार और ऑफ-पीक समय में स्वचालित रूप से संकुचन, GPU उपयोग 35% से बढ़कर 82% हो गया।
7×24 मॉडल मॉनिटरिंग सिस्टम
एक व्यापक मॉडल मॉनिटरिंग प्रणाली स्थापित की गई, जिसमें भविष्यवाणी सटीकता, विलंबता, थ्रूपुट, डेटा वितरण विचलन जैसे प्रमुख संकेतक शामिल हैं। असामान्यताओं पर स्वचालित अलर्ट और मॉडल पुनः प्रशिक्षण प्रक्रिया शुरू की गई, जिससे अनुशंसा प्रभाव लगातार सर्वोत्तम बना रहे।
प्रभाव डेटा
| संकेतक | अनुकूलन से पहले | अनुकूलन के बाद | सुधार |
|---|---|---|---|
| GPU उपयोग | 35% | 82% | 134% |
| मासिक GPU लागत | 8 लाख युआन | 4.4 लाख युआन | 45% कमी |
| मॉडल पुनरावृत्ति चक्र | 2 सप्ताह | 2 दिन | 86% कमी |
| मॉडल असामान्यता पता लगने का समय | 24 घंटे | 5 मिनट | 97% कमी |
तकनीक स्टैक
Kubernetes, Kubeflow, MLflow, Prometheus, Grafana, NVIDIA GPU Operator, Python, Airflow