中芸汇科技
খুচরাAIMLOpsস্বয়ংক্রিয়তাচীন

একটি ই-কমার্স প্ল্যাটফর্মের AI সুপারিশ সিস্টেম MLOps পরিচালনা অপ্টিমাইজেশন প্রকল্প

একটি ই-কমার্স প্ল্যাটফর্মের AI সুপারিশ সিস্টেম MLOps পরিচালনা অপ্টিমাইজেশন প্রকল্প

প্রকল্পের পটভূমি

একটি বৃহৎ ই-কমার্স প্ল্যাটফর্মের ১০টিরও বেশি অনলাইন সুপারিশ মডেল রয়েছে, যা হোমপেজ সুপারিশ, পণ্যের বিস্তারিত পাতা, শপিং কার্ট ইত্যাদি একাধিক পরিস্থিতি অন্তর্ভুক্ত করে। তবে, মডেল পরিচালনা সম্পূর্ণরূপে ম্যানুয়াল অপারেশনের উপর নির্ভর করত, কোনো একীভূত নজরদারি এবং স্বয়ংক্রিয় পুনরাবৃত্তি প্রক্রিয়া ছিল না, GPU ব্যবহারের হার মাত্র ৩৫%, মাসিক খরচ ৮০০,০০০ ইউয়ান পর্যন্ত ছিল। মডেল আপডেটে দেরি হওয়ার কারণে সুপারিশ কার্যকারিতা ধীরে ধীরে কমছিল, এবং পরিচালনা দল কঠোর পরিশ্রম করেও সিস্টেমের দক্ষতা কার্যকরভাবে বৃদ্ধি করতে পারছিল না, তাই MLOps ব্যবস্থা চালু করে পরিচালনা স্বয়ংক্রিয়করণ জরুরি হয়ে পড়ে।

মূল সমস্যাগুলি

  • GPU ব্যবহারের হার অত্যন্ত কম: ১০টিরও বেশি মডেল GPU ক্লাস্টার শেয়ার করত, ব্যবহারের হার মাত্র ৩৫%, মাসিক খরচ ৮০০,০০০ ইউয়ান।
  • মডেল পুনরাবৃত্তি ধীর: ডেটা প্রস্তুতি থেকে লাইভে যেতে ২ সপ্তাহ সময় লাগত, ব্যবসায়িক পরিবর্তনে দ্রুত সাড়া দেওয়া সম্ভব ছিল না।
  • একীভূত নজরদারির অভাব: মডেলের পারফরম্যান্স মেট্রিকগুলি ছড়িয়ে ছিটিয়ে ছিল, অস্বাভাবিকতা সনাক্তকরণ বিলম্বিত হত, ব্যবহারকারীর অভিজ্ঞতায় প্রভাব পড়ত।
  • পরিচালনা জনবলের অভাব: ৩ জনের দল ১০টিরও বেশি মডেল পরিচালনা করত, প্রতিদিনের সমস্যায় ক্লান্ত হয়ে পড়ত, অপ্টিমাইজেশনের সময় পেত না।
  • সমাধান

    সম্পূর্ণ-চেইন MLOps প্ল্যাটফর্ম নির্মাণ

    ডেটা সংগ্রহ, ফিচার ইঞ্জিনিয়ারিং, মডেল প্রশিক্ষণ, মডেল মূল্যায়ন থেকে গ্রে-স্কেল রিলিজ পর্যন্ত সম্পূর্ণ-চেইন MLOps প্ল্যাটফর্ম নির্মাণ করা হয়েছে, যা মডেল জীবনচক্র স্বয়ংক্রিয়ভাবে পরিচালনা করে। নতুন মডেল প্রশিক্ষণ থেকে লাইভে যাওয়ার সময় ২ সপ্তাহ থেকে কমিয়ে ২ দিন করা হয়েছে, A/B টেস্টিং এবং গ্রে-স্কেল রিলিজ সমর্থন করে, লাইভে যাওয়ার ঝুঁকি কমায়।

    GPU রিসোর্স বুদ্ধিমান সময়সূচী

    GPU রিসোর্স বুদ্ধিমান সময়সূচী ব্যবস্থা তৈরি করা হয়েছে, যা মডেল ট্র্যাফিক পূর্বাভাসের ভিত্তিতে গতিশীলভাবে GPU রিসোর্স বরাদ্দ করে, মডেল হট-লোডিং এবং ইলাস্টিক স্কেলিং সমর্থন করে। পিক সময়ে স্বয়ংক্রিয়ভাবে বাড়ানো হয়, অফ-পিক সময়ে স্বয়ংক্রিয়ভাবে কমানো হয়, GPU ব্যবহারের হার ৩৫% থেকে ৮২% এ উন্নীত হয়েছে।

    ২৪/৭ মডেল নজরদারি ব্যবস্থা

    সম্পূর্ণ মডেল নজরদারি ব্যবস্থা প্রতিষ্ঠা করা হয়েছে, যা ভবিষ্যদ্বাণীর নির্ভুলতা, লেটেন্সি, থ্রুপুট, ডেটা ডিস্ট্রিবিউশন ড্রিফট ইত্যাদি মূল সূচকগুলি অন্তর্ভুক্ত করে। অস্বাভাবিকতা স্বয়ংক্রিয়ভাবে সতর্ক করে এবং মডেল পুনরায় প্রশিক্ষণ প্রক্রিয়া চালু করে, নিশ্চিত করে যে সুপারিশ কার্যকারিতা সর্বদা সর্বোত্তম থাকে।

    কার্যকারিতার ডেটা

    সূচকপরিবর্তনের আগেপরিবর্তনের পরেউন্নতি
    GPU ব্যবহারের হার৩৫%৮২%১৩৪%
    মাসিক GPU খরচ৮০০,০০০ ইউয়ান৪৪০,০০০ ইউয়ান৪৫%
    মডেল পুনরাবৃত্তি চক্র২ সপ্তাহ২ দিন৮৬%
    মডেল অস্বাভাবিকতা সনাক্তকরণ সময়২৪ ঘণ্টা৫ মিনিট৯৭%

    প্রযুক্তি স্ট্যাক

    Kubernetes, Kubeflow, MLflow, Prometheus, Grafana, NVIDIA GPU Operator, Python, Airflow

    MLOps অপ্টিমাইজেশনের পরে, ৩ জনের দল সহজেই ১০টিরও বেশি মডেল পরিচালনা করছে, GPU খরচ ৪৫% কমেছে এবং সুপারিশ কার্যকারিতা ক্রমাগত উন্নত হচ্ছে।

    সম্পর্কিত কেস

    একটি যৌথমূলধনী ব্যাংকের বৃহৎ মডেল প্রাইভেট ডিপ্লয়মেন্ট ও ঝুঁকি নিয়ন্ত্রণ অ্যাপ্লিকেশন
    আর্থিকAIপ্রাইভেট ডিপ্লয়মেন্টঅটোমেশন

    একটি যৌথমূলধনী ব্যাংকের বৃহৎ মডেল প্রাইভেট ডিপ্লয়মেন্ট ও ঝুঁকি নিয়ন্ত্রণ অ্যাপ্লিকেশন

    Before

    ক্রেডিট অনুমোদন ৩ দিন, ঝুঁকি মিস রেট ৩%

    After

    ক্রেডিট অনুমোদন ৪ ঘন্টা, ঝুঁকি মিস রেট ০.৫%

    হুয়াডং ফার্মাসিউটিক্যাল গ্রুপ ERP+AI স্মার্ট এন্ট্রি ইন্টিগ্রেশন প্রকল্প
    উৎপাদন শিল্পAIইন্টিগ্রেশনঅটোমেশন

    হুয়াডং ফার্মাসিউটিক্যাল গ্রুপ ERP+AI স্মার্ট এন্ট্রি ইন্টিগ্রেশন প্রকল্প

    Before

    ম্যানুয়াল এন্ট্রি ২ ঘণ্টা/অর্ডার, ত্রুটির হার ৮%

    After

    এআই এন্ট্রি ৫ মিনিট/অর্ডার, ত্রুটির হার ০.৫%

    太平洋保险 প্রাইভেট নলেজ বেস স্মার্ট Q&A সিস্টেম
    আর্থিকAIRAGজ্ঞানভাণ্ডার

    太平洋保险 প্রাইভেট নলেজ বেস স্মার্ট Q&A সিস্টেম

    Before

    জ্ঞান অনুসন্ধান ১৫ মিনিট, নতুন কর্মী প্রশিক্ষণ ৩-৬ মাস

    After

    জ্ঞান অনুসন্ধান ১০ সেকেন্ড, নতুন কর্মী প্রশিক্ষণ ১-২ মাস