はじめに
金融、医療、政府などの業界ではデータセキュリティ要件が厳しく、公開LLM APIではコンプライアンスを満たせません。LLMのオンプレミスデプロイはこれらの業界にとって必須です。
本記事では、10社以上の企業様にLLMオンプレミスデプロイを導入した経験に基づき、7つの重要なステップを体系的に解説します。
ステップ1:モデル選定
1.1 主要なオープンソースモデル比較
| モデル | パラメータ数 | 中国語能力 | 推論速度 | オープンソースライセンス | 推奨シナリオ |
|---|---|---|---|---|---|
| Qwen2.5-72B | 72B | ★★★★★ | 中程度 | Apache 2.0 | 汎用シナリオ第一候補 |
| Qwen2.5-7B | 7B | ★★★★ | 高速 | Apache 2.0 | 軽量シナリオ |
| DeepSeek-V3 | 671B MoE | ★★★★★ | 高速 | MIT | 予算十分 |
| ChatGLM4-9B | 9B | ★★★★ | 高速 | Apache 2.0 | 対話シナリオ |
| Llama3.1-70B | 70B | ★★★ | 中程度 | Llama3 | 英語メイン |
| Yi-1.5-34B | 34B | ★★★★ | やや高速 | Apache 2.0 | コストパフォーマンス重視 |
1.2 選定アドバイス
ステップ2:計算リソース評価
2.1 GPU必要リソース参考
| モデル | FP16 | INT8 | INT4 |
|---|---|---|---|
| 7B | 1×A100 40G | 1×A10 24G | 1×RTX4090 24G |
| 34B | 2×A100 80G | 1×A100 80G | 1×A100 40G |
| 72B | 4×A100 80G | 2×A100 80G | 2×A100 40G |
2.2 コスト見積もり
| 構成 | 購入コスト | 月額レンタルコスト | 適用シナリオ |
|---|---|---|---|
| 1×RTX4090 | 1.5万元 | 3000元 | 7Bモデルテスト |
| 1×A100 40G | 8万元 | 1.5万元 | 7B-34Bモデル |
| 2×A100 80G | 25万元 | 4万元 | 34B-72Bモデル |
| 4×A100 80G | 50万元 | 8万元 | 72B+モデル |
ステップ3:推論エンジン選択
| エンジン | スループット | レイテンシ | 使いやすさ | 推奨シナリオ |
|---|---|---|---|---|
| vLLM | ★★★★★ | ★★★★ | ★★★★ | 本番環境第一候補 |
| TGI | ★★★★ | ★★★★ | ★★★★ | 互換性優先 |
| TensorRT-LLM | ★★★★ | ★★★★★ | ★★★ | レイテンシ重視シナリオ |
| Ollama | ★★★ | ★★★ | ★★★★★ | ローカル開発テスト |
当社のおすすめ:本番環境にはvLLM(スループット最高、コミュニティ活発)、開発・テストにはOllama(ワンクリックデプロイ)。
ステップ4:モデル量子化
4.1 量子化手法比較
| 手法 | 精度低下 | 速度向上 | モデルサイズ縮小 | 適用 |
|---|---|---|---|---|
| FP16→INT8(AWQ) | <1% | 2倍 | 2倍 | 汎用推奨 |
| FP16→INT4(GPTQ) | 1%-3% | 3倍 | 4倍 | リソース制約あり |
| FP16→INT4(GGUF) | 2%-5% | 3倍 | 4倍 | CPU推論 |
4.2 量子化効果参考
Qwen2.5-72Bの中国語ベンチマークにおける量子化効果:
| 量子化方式 | C-Eval | 推論速度 (Token/s) | GPUメモリ使用量 |
|---|---|---|---|
| FP16 | 83.5 | 25 | 144GB |
| AWQ-INT8 | 82.8 | 48 | 72GB |
| GPTQ-INT4 | 81.2 | 72 | 40GB |
ステップ5:コンテナデプロイ
```yaml
docker-compose.yml サンプル
services:
vllm:
image: vllm/vllm-openai:latest
deploy:
resources:
reservations:
devices:
count: 2
command: >
--model Qwen/Qwen2.5-72B-Instruct-AWQ
--quantization awq
--tensor-parallel-size 2
--max-model-len 8192
--gpu-memory-utilization 0.9
ports:
```
ステップ6:パフォーマンス最適化
| 最適化項目 | 手法 | 効果 |
|---|---|---|
| Continuous Batching | 動的バッチ処理 | スループット2〜3倍向上 |
| PagedAttention | GPUメモリページング管理 | GPUメモリ使用効率40%向上 |
| Prefix Caching | システムプロンプトキャッシュ | 同一プレフィクスのリクエストレイテンシ50%削減 |
| Speculative Decoding | 小モデルによる投機と大モデル検証 | 推論速度2〜3倍向上 |
ステップ7:監視と運用
7.1 主要監視指標
| 指標 | アラートしきい値 |
|---|---|
| GPU使用率 | >95% が5分間継続 |
| 推論レイテンシP99 | >5秒 |
| リクエスト失敗率 | >1% |
| GPUメモリ使用率 | >90% |
| モデルサービス可用性 | <99.9% |
7.2 運用戦略
おわりに
オンプレミスデプロイは「サーバーを買ってモデルを入れる」ことではありません。適切なモデル選定、計算リソースの確保、推論の最適化、運用の徹底があって初めて、プライベートLLMは本当に使いやすくなります。まず7Bモデルでビジネスシナリオを迅速に検証し、実現可能と確認できたら72Bモデルにアップグレードすることをお勧めします。
LLMオンプレミスデプロイソリューションをご検討ですか?無料計算リソース評価を予約