プロジェクト背景
ある大手ECプラットフォームは、トップページレコメンド、商品詳細ページ、ショッピングカートなど複数のシーンに対応する10以上のオンラインレコメンドモデルを運用していました。しかし、モデル運用はすべて手動操作で、統一された監視や自動反復の仕組みがなく、GPU使用率はわずか35%、月間コストは80万元に達していました。モデル更新の遅れによりレコメンド効果が徐々に低下し、運用チームは日々の対応に追われながらもシステム効率を効果的に向上させることができず、MLOps体制の導入による運用自動化が急務でした。
主な課題
ソリューション
フルスタックMLOpsプラットフォームの構築
データ収集、特徴量エンジニアリング、モデル訓練、モデル評価からグレースケールリリースまでのフルスタックMLOpsプラットフォームを構築し、モデルライフサイクルの自動管理を実現。新モデルの訓練からリリースまでの時間を2週間から2日間に短縮し、A/Bテストとグレースケールリリースをサポートして、リリースリスクを低減します。
GPUリソースのインテリジェントスケジューリング
モデルのトラフィック予測に基づいてGPUリソースを動的に割り当てるインテリジェントスケジューリングシステムを開発し、モデルのホットローディングとエラスティックスケーリングをサポート。ピーク時には自動でスケールアウトし、オフピーク時にはスケールインすることで、GPU使用率を35%から82%に向上させました。
24時間365日のモデル監視体制
予測精度、レイテンシ、スループット、データ分布のドリフトなどの重要指標をカバーする包括的なモデル監視体制を構築。異常時には自動アラートを発し、モデルの再訓練プロセスをトリガーして、レコメンド効果を常に最適に保ちます。
効果データ
| 指標 | 変更前 | 変更後 | 改善 |
|---|---|---|---|
| GPU使用率 | 35% | 82% | 134% |
| 月間GPUコスト | 80万 | 44万 | 45% |
| モデル反復期間 | 2週間 | 2日 | 86% |
| モデル異常検知時間 | 24時間 | 5分 | 97% |
技術スタック
Kubernetes、Kubeflow、MLflow、Prometheus、Grafana、NVIDIA GPU Operator、Python、Airflow