Предыстория проекта
Крупная платформа электронной коммерции имеет более 10 онлайн‑моделей рекомендаций, охватывающих рекомендации на главной странице, страницу сведений о товаре, корзину покупок и другие сценарии. Однако эксплуатация моделей полностью выполнялась вручную, отсутствовали единый мониторинг и механизм автоматической итерации. Утилизация GPU составляла всего 35%, а ежемесячные затраты достигали 800 000 юаней. Задержка обновления моделей приводила к постепенному снижению эффективности рекомендаций, в то время как команда эксплуатации изматывалась, но не могла эффективно повысить производительность системы. Возникла острая необходимость внедрения системы MLOps для автоматизации эксплуатации.
Основные проблемы
Решение
Создание полноценной платформы MLOps полного цикла
Создана платформа MLOps полного цикла от сбора данных, проектирования признаков, обучения модели, оценки модели до канареечного развертывания, обеспечивающая автоматизированное управление жизненным циклом модели. Время от обучения новой модели до развертывания сократилось с 2 недель до 2 дней. Поддерживаются A/B‑тестирование и канареечное развертывание, что снижает риски развертывания.
Интеллектуальное планирование ресурсов GPU
Разработана интеллектуальная система планирования ресурсов GPU, динамически распределяющая GPU ресурсы на основе прогнозирования трафика модели, поддерживающая горячую загрузку модели и эластичное масштабирование. В пиковые периоды автоматически расширяется, в периоды низкой нагрузки автоматически сокращается, утилизация GPU повысилась с 35% до 82%.
Круглосуточная система мониторинга моделей (7×24)
Создана всесторонняя система мониторинга моделей, охватывающая ключевые показатели: точность прогнозирования, задержку, пропускную способность, дрейф распределения данных и т.д. При аномалиях автоматически выдается предупреждение и запускается процесс переобучения модели, обеспечивая постоянную оптимальную эффективность рекомендаций.
Данные об эффективности
| Показатель | До оптимизации | После оптимизации | Улучшение |
|---|---|---|---|
| Утилизация GPU | 35% | 82% | 134% |
| Ежемесячные затраты на GPU | 800 000 юаней | 440 000 юаней | 45% |
| Цикл итерации модели | 2 недели | 2 дня | 86% |
| Время обнаружения аномалий модели | 24 часа | 5 минут | 97% |
Технологический стек
Kubernetes, Kubeflow, MLflow, Prometheus, Grafana, NVIDIA GPU Operator, Python, Airflow