中芸汇科技
खुदराAIMLOpsस्वचालनचीन

एक ई-कॉमर्स प्लेटफ़ॉर्म की AI अनुशंसा प्रणाली का MLOps संचालन अनुकूलन परियोजना

एक ई-कॉमर्स प्लेटफ़ॉर्म की AI अनुशंसा प्रणाली का MLOps संचालन अनुकूलन परियोजना

परियोजना की पृष्ठभूमि

एक बड़े ई-कॉमर्स प्लेटफॉर्म में होमपेज अनुशंसा, उत्पाद विवरण पृष्ठ, शॉपिंग कार्ट आदि कई परिदृश्यों को कवर करने वाले 10+ ऑनलाइन अनुशंसा मॉडल हैं। हालाँकि, मॉडल का संचालन पूरी तरह से मैन्युअल था, एकीकृत निगरानी और स्वचालित पुनरावृत्ति तंत्र का अभाव था, GPU उपयोग सिर्फ 35% था और मासिक लागत 8 लाख युआन तक थी। मॉडल अपडेट में देरी के कारण अनुशंसा प्रभाव धीरे-धीरे कम होता गया, और संचालन टीम थकी हुई थी लेकिन सिस्टम दक्षता में प्रभावी ढंग से सुधार नहीं कर सकी, MLOps प्रणाली शुरू करने की तत्काल आवश्यकता थी।

मुख्य समस्याएँ

  • GPU का बहुत कम उपयोग: 10+ मॉडल GPU क्लस्टर साझा कर रहे थे, उपयोग केवल 35%, मासिक लागत 8 लाख युआन
  • मॉडल पुनरावृत्ति धीमी: डेटा की तैयारी से लेकर लॉन्च तक 2 सप्ताह लगते थे, व्यावसायिक बदलावों पर तेजी से प्रतिक्रिया नहीं दे पाते थे
  • एकीकृत निगरानी का अभाव: मॉडल प्रदर्शन संकेतक बिखरे हुए थे, असामान्यताओं का पता देर से चलता था, उपयोगकर्ता अनुभव प्रभावित होता था
  • संचालन हेतु अपर्याप्त जनशक्ति: 3-सदस्यीय टीम 10+ मॉडल प्रबंधित कर रही थी, दैनिक समस्याओं से जूझती थी, अनुकूलन के लिए समय नहीं था
  • समाधान

    एंड-टू-एंड MLOps प्लेटफ़ॉर्म का निर्माण

    डेटा संग्रहण, फीचर इंजीनियरिंग, मॉडल प्रशिक्षण, मॉडल मूल्यांकन से लेकर ग्रे रिलीज़ तक का एंड-टू-एंड MLOps प्लेटफ़ॉर्म बनाया गया, जिससे मॉडल जीवनचक्र का स्वचालित प्रबंधन संभव हुआ। नए मॉडल को प्रशिक्षण से लेकर लॉन्च करने का समय 2 सप्ताह से घटकर 2 दिन हो गया, A/B परीक्षण और ग्रे रिलीज़ का समर्थन किया, लॉन्च जोखिम कम किया।

    GPU संसाधनों का बुद्धिमान शेड्यूलिंग

    GPU संसाधनों के लिए एक बुद्धिमान शेड्यूलिंग प्रणाली विकसित की गई, जो मॉडल ट्रैफ़िक पूर्वानुमान के आधार पर GPU संसाधनों को गतिशील रूप से आवंटित करती है, मॉडल हॉट-लोडिंग और इलास्टिक स्केलिंग का समर्थन करती है। पीक समय में स्वचालित रूप से विस्तार और ऑफ-पीक समय में स्वचालित रूप से संकुचन, GPU उपयोग 35% से बढ़कर 82% हो गया।

    7×24 मॉडल मॉनिटरिंग सिस्टम

    एक व्यापक मॉडल मॉनिटरिंग प्रणाली स्थापित की गई, जिसमें भविष्यवाणी सटीकता, विलंबता, थ्रूपुट, डेटा वितरण विचलन जैसे प्रमुख संकेतक शामिल हैं। असामान्यताओं पर स्वचालित अलर्ट और मॉडल पुनः प्रशिक्षण प्रक्रिया शुरू की गई, जिससे अनुशंसा प्रभाव लगातार सर्वोत्तम बना रहे।

    प्रभाव डेटा

    संकेतकअनुकूलन से पहलेअनुकूलन के बादसुधार
    GPU उपयोग35%82%134%
    मासिक GPU लागत8 लाख युआन4.4 लाख युआन45% कमी
    मॉडल पुनरावृत्ति चक्र2 सप्ताह2 दिन86% कमी
    मॉडल असामान्यता पता लगने का समय24 घंटे5 मिनट97% कमी

    तकनीक स्टैक

    Kubernetes, Kubeflow, MLflow, Prometheus, Grafana, NVIDIA GPU Operator, Python, Airflow

    MLOps अनुकूलन के बाद, 3-सदस्यीय टीम आसानी से 10+ मॉडल प्रबंधित कर रही है, GPU लागत 45% कम हो गई है और अनुशंसा प्रदर्शन में लगातार सुधार हो रहा है।