Introduction
Les secteurs comme la finance, la santé et l’administration publique ont des exigences strictes en matière de sécurité des données ; les API publiques de grands modèles ne peuvent pas répondre aux obligations de conformité. Le déploiement privé de grands modèles est une nécessité pour ces secteurs.
Cet article s’appuie sur notre expérience de déploiement privé de grands modèles pour plus de 10 entreprises et explique de manière systématique les 7 étapes clés.
Étape 1 : Sélection du modèle
1.1 Comparaison des principaux modèles open source
| Modèle | Paramètres | Capacité en chinois | Vitesse d’inférence | Licence | Scénario recommandé |
|---|---|---|---|---|---|
| Qwen2.5-72B | 72B | ★★★★★ | Moyen | Apache 2.0 | Choix privilégié pour usage général |
| Qwen2.5-7B | 7B | ★★★★ | Rapide | Apache 2.0 | Scénario léger |
| DeepSeek-V3 | 671B MoE | ★★★★★ | Rapide | MIT | Budget suffisant |
| ChatGLM4-9B | 9B | ★★★★ | Rapide | Apache 2.0 | Scénario de dialogue |
| Llama3.1-70B | 70B | ★★★ | Moyen | Llama3 | Principalement en anglais |
| Yi-1.5-34B | 34B | ★★★★ | Assez rapide | Apache 2.0 | Choix rapport qualité-prix |
1.2 Recommandations de sélection
Étape 2 : Évaluation de la puissance de calcul
2.1 Référence des besoins en GPU
| Modèle | FP16 | INT8 | INT4 |
|---|---|---|---|
| 7B | 1×A100 40G | 1×A10 24G | 1×RTX4090 24G |
| 34B | 2×A100 80G | 1×A100 80G | 1×A100 40G |
| 72B | 4×A100 80G | 2×A100 80G | 2×A100 40G |
2.2 Estimation des coûts
| Configuration | Coût d’achat | Coût mensuel de location | Scénario d’application |
|---|---|---|---|
| 1×RTX4090 | 15 000 yuans | 3 000 yuans | Test d’un modèle 7B |
| 1×A100 40G | 80 000 yuans | 15 000 yuans | Modèles 7B-34B |
| 2×A100 80G | 250 000 yuans | 40 000 yuans | Modèles 34B-72B |
| 4×A100 80G | 500 000 yuans | 80 000 yuans | Modèles 72B+ |
Étape 3 : Choix du moteur d’inférence
| Moteur | Débit | Latence | Facilité d’utilisation | Scénario recommandé |
|---|---|---|---|---|
| vLLM | ★★★★★ | ★★★★ | ★★★★ | Choix privilégié pour la production |
| TGI | ★★★★ | ★★★★ | ★★★★ | Priorité à la compatibilité |
| TensorRT-LLM | ★★★★ | ★★★★★ | ★★★ | Scénario sensible à la latence |
| Ollama | ★★★ | ★★★ | ★★★★★ | Développement et test locaux |
Notre recommandation : Utilisez vLLM pour la production (débit le plus élevé, communauté active) et Ollama pour le développement et les tests (déploiement en un clic).
Étape 4 : Quantification du modèle
4.1 Comparaison des méthodes de quantification
| Méthode | Perte de précision | Augmentation de la vitesse | Réduction du modèle | Adapté à |
|---|---|---|---|---|
| FP16→INT8(AWQ) | <1% | 2x | 2x | Recommandé généralement |
| FP16→INT4(GPTQ) | 1%-3% | 3x | 4x | Contrainte de ressources |
| FP16→INT4(GGUF) | 2%-5% | 3x | 4x | Inférence CPU |
4.2 Référence des performances de quantification
Effets de quantification de Qwen2.5-72B sur l’évaluation en chinois :
| Méthode de quantification | C-Eval | Vitesse d’inférence (jetons/s) | Mémoire GPU utilisée |
|---|---|---|---|
| FP16 | 83.5 | 25 | 144 GB |
| AWQ-INT8 | 82.8 | 48 | 72 GB |
| GPTQ-INT4 | 81.2 | 72 | 40 GB |
Étape 5 : Déploiement conteneurisé
```yaml
docker-compose.yml 示例
services:
vllm:
image: vllm/vllm-openai:latest
deploy:
resources:
reservations:
devices:
count: 2
command: >
--model Qwen/Qwen2.5-72B-Instruct-AWQ
--quantization awq
--tensor-parallel-size 2
--max-model-len 8192
--gpu-memory-utilization 0.9
ports:
```
Étape 6 : Optimisation des performances
| Optimisation | Méthode | Effet |
|---|---|---|
| Continuous Batching | Traitement par lots dynamique | Débit multiplié par 2-3 |
| PagedAttention | Gestion paginée de la mémoire GPU | Utilisation mémoire GPU améliorée de 40 % |
| Prefix Caching | Cache des prompts système | Latence des requêtes avec préfixes identiques réduite de 50 % |
| Speculative Decoding | Petit modèle pour spéculation, grand modèle pour vérification | Vitesse d’inférence multipliée par 2-3 |
Étape 7 : Surveillance et exploitation
7.1 Indicateurs clés de surveillance
| Indicateur | Seuil d’alerte |
|---|---|
| Utilisation GPU | > 95 % pendant 5 minutes |
| Latence d’inférence P99 | > 5 secondes |
| Taux d’échec des requêtes | > 1 % |
| Utilisation mémoire GPU | > 90 % |
| Disponibilité du service de modèle | < 99,9 % |
7.2 Stratégies d’exploitation
Conclusion
Le déploiement privé ne se résume pas à « acheter un serveur et y installer un modèle ». Il faut bien choisir le modèle, dimensionner la puissance de calcul, optimiser l’inférence et assurer l’exploitation pour que le grand modèle privé soit réellement performant. Nous recommandons de commencer par un modèle 7B pour valider rapidement le scénario métier, puis de passer à un modèle 72B une fois la faisabilité confirmée.
Vous souhaitez en savoir plus sur les solutions de déploiement privé de grands modèles ? Prenez rendez-vous pour une évaluation gratuite de la puissance de calcul