প্রকল্পের পটভূমি
একটি বৃহৎ ই-কমার্স প্ল্যাটফর্মের ১০টিরও বেশি অনলাইন সুপারিশ মডেল রয়েছে, যা হোমপেজ সুপারিশ, পণ্যের বিস্তারিত পাতা, শপিং কার্ট ইত্যাদি একাধিক পরিস্থিতি অন্তর্ভুক্ত করে। তবে, মডেল পরিচালনা সম্পূর্ণরূপে ম্যানুয়াল অপারেশনের উপর নির্ভর করত, কোনো একীভূত নজরদারি এবং স্বয়ংক্রিয় পুনরাবৃত্তি প্রক্রিয়া ছিল না, GPU ব্যবহারের হার মাত্র ৩৫%, মাসিক খরচ ৮০০,০০০ ইউয়ান পর্যন্ত ছিল। মডেল আপডেটে দেরি হওয়ার কারণে সুপারিশ কার্যকারিতা ধীরে ধীরে কমছিল, এবং পরিচালনা দল কঠোর পরিশ্রম করেও সিস্টেমের দক্ষতা কার্যকরভাবে বৃদ্ধি করতে পারছিল না, তাই MLOps ব্যবস্থা চালু করে পরিচালনা স্বয়ংক্রিয়করণ জরুরি হয়ে পড়ে।
মূল সমস্যাগুলি
সমাধান
সম্পূর্ণ-চেইন MLOps প্ল্যাটফর্ম নির্মাণ
ডেটা সংগ্রহ, ফিচার ইঞ্জিনিয়ারিং, মডেল প্রশিক্ষণ, মডেল মূল্যায়ন থেকে গ্রে-স্কেল রিলিজ পর্যন্ত সম্পূর্ণ-চেইন MLOps প্ল্যাটফর্ম নির্মাণ করা হয়েছে, যা মডেল জীবনচক্র স্বয়ংক্রিয়ভাবে পরিচালনা করে। নতুন মডেল প্রশিক্ষণ থেকে লাইভে যাওয়ার সময় ২ সপ্তাহ থেকে কমিয়ে ২ দিন করা হয়েছে, A/B টেস্টিং এবং গ্রে-স্কেল রিলিজ সমর্থন করে, লাইভে যাওয়ার ঝুঁকি কমায়।
GPU রিসোর্স বুদ্ধিমান সময়সূচী
GPU রিসোর্স বুদ্ধিমান সময়সূচী ব্যবস্থা তৈরি করা হয়েছে, যা মডেল ট্র্যাফিক পূর্বাভাসের ভিত্তিতে গতিশীলভাবে GPU রিসোর্স বরাদ্দ করে, মডেল হট-লোডিং এবং ইলাস্টিক স্কেলিং সমর্থন করে। পিক সময়ে স্বয়ংক্রিয়ভাবে বাড়ানো হয়, অফ-পিক সময়ে স্বয়ংক্রিয়ভাবে কমানো হয়, GPU ব্যবহারের হার ৩৫% থেকে ৮২% এ উন্নীত হয়েছে।
২৪/৭ মডেল নজরদারি ব্যবস্থা
সম্পূর্ণ মডেল নজরদারি ব্যবস্থা প্রতিষ্ঠা করা হয়েছে, যা ভবিষ্যদ্বাণীর নির্ভুলতা, লেটেন্সি, থ্রুপুট, ডেটা ডিস্ট্রিবিউশন ড্রিফট ইত্যাদি মূল সূচকগুলি অন্তর্ভুক্ত করে। অস্বাভাবিকতা স্বয়ংক্রিয়ভাবে সতর্ক করে এবং মডেল পুনরায় প্রশিক্ষণ প্রক্রিয়া চালু করে, নিশ্চিত করে যে সুপারিশ কার্যকারিতা সর্বদা সর্বোত্তম থাকে।
কার্যকারিতার ডেটা
| সূচক | পরিবর্তনের আগে | পরিবর্তনের পরে | উন্নতি |
|---|---|---|---|
| GPU ব্যবহারের হার | ৩৫% | ৮২% | ১৩৪% |
| মাসিক GPU খরচ | ৮০০,০০০ ইউয়ান | ৪৪০,০০০ ইউয়ান | ৪৫% |
| মডেল পুনরাবৃত্তি চক্র | ২ সপ্তাহ | ২ দিন | ৮৬% |
| মডেল অস্বাভাবিকতা সনাক্তকরণ সময় | ২৪ ঘণ্টা | ৫ মিনিট | ৯৭% |
প্রযুক্তি স্ট্যাক
Kubernetes, Kubeflow, MLflow, Prometheus, Grafana, NVIDIA GPU Operator, Python, Airflow