中芸汇科技
Розничная торговляAIMLOpsАвтоматизацияКитай

Проект оптимизации эксплуатации MLOps системы рекомендаций ИИ платформы электронной коммерции

Проект оптимизации эксплуатации MLOps системы рекомендаций ИИ платформы электронной коммерции

Предыстория проекта

Крупная платформа электронной коммерции имеет более 10 онлайн‑моделей рекомендаций, охватывающих рекомендации на главной странице, страницу сведений о товаре, корзину покупок и другие сценарии. Однако эксплуатация моделей полностью выполнялась вручную, отсутствовали единый мониторинг и механизм автоматической итерации. Утилизация GPU составляла всего 35%, а ежемесячные затраты достигали 800 000 юаней. Задержка обновления моделей приводила к постепенному снижению эффективности рекомендаций, в то время как команда эксплуатации изматывалась, но не могла эффективно повысить производительность системы. Возникла острая необходимость внедрения системы MLOps для автоматизации эксплуатации.

Основные проблемы

  • Крайне низкая утилизация GPU: более 10 моделей разделяют кластер GPU, утилизация всего 35%, ежемесячные затраты 800 000 юаней.
  • Медленная итерация моделей: от подготовки данных до развертывания требовалось 2 недели, невозможно быстро реагировать на изменения бизнеса.
  • Отсутствие единого мониторинга: показатели производительности модели разрознены, обнаружение аномалий запаздывает, что влияет на пользовательский опыт.
  • Недостаток кадров эксплуатации: команда из 3 человек управляет более чем 10 моделями, изматывается решением ежедневных проблем, не имея времени на оптимизацию.
  • Решение

    Создание полноценной платформы MLOps полного цикла

    Создана платформа MLOps полного цикла от сбора данных, проектирования признаков, обучения модели, оценки модели до канареечного развертывания, обеспечивающая автоматизированное управление жизненным циклом модели. Время от обучения новой модели до развертывания сократилось с 2 недель до 2 дней. Поддерживаются A/B‑тестирование и канареечное развертывание, что снижает риски развертывания.

    Интеллектуальное планирование ресурсов GPU

    Разработана интеллектуальная система планирования ресурсов GPU, динамически распределяющая GPU ресурсы на основе прогнозирования трафика модели, поддерживающая горячую загрузку модели и эластичное масштабирование. В пиковые периоды автоматически расширяется, в периоды низкой нагрузки автоматически сокращается, утилизация GPU повысилась с 35% до 82%.

    Круглосуточная система мониторинга моделей (7×24)

    Создана всесторонняя система мониторинга моделей, охватывающая ключевые показатели: точность прогнозирования, задержку, пропускную способность, дрейф распределения данных и т.д. При аномалиях автоматически выдается предупреждение и запускается процесс переобучения модели, обеспечивая постоянную оптимальную эффективность рекомендаций.

    Данные об эффективности

    ПоказательДо оптимизацииПосле оптимизацииУлучшение
    Утилизация GPU35%82%134%
    Ежемесячные затраты на GPU800 000 юаней440 000 юаней45%
    Цикл итерации модели2 недели2 дня86%
    Время обнаружения аномалий модели24 часа5 минут97%

    Технологический стек

    Kubernetes, Kubeflow, MLflow, Prometheus, Grafana, NVIDIA GPU Operator, Python, Airflow

    После оптимизации MLOps команда из 3 человек легко управляет более чем 10 моделями, затраты на GPU снизились на 45%, а качество рекомендаций продолжает улучшаться.