中芸汇科技
2026-05-05
Déploiement privéGrands modèlesSécurité des données
Illustration de l’article
Illustration de l’article

Introduction

Les secteurs comme la finance, la santé et l’administration publique ont des exigences strictes en matière de sécurité des données ; les API publiques de grands modèles ne peuvent pas répondre aux obligations de conformité. Le déploiement privé de grands modèles est une nécessité pour ces secteurs.

Cet article s’appuie sur notre expérience de déploiement privé de grands modèles pour plus de 10 entreprises et explique de manière systématique les 7 étapes clés.

Étape 1 : Sélection du modèle

1.1 Comparaison des principaux modèles open source

ModèleParamètresCapacité en chinoisVitesse d’inférenceLicenceScénario recommandé
Qwen2.5-72B72B★★★★★MoyenApache 2.0Choix privilégié pour usage général
Qwen2.5-7B7B★★★★RapideApache 2.0Scénario léger
DeepSeek-V3671B MoE★★★★★RapideMITBudget suffisant
ChatGLM4-9B9B★★★★RapideApache 2.0Scénario de dialogue
Llama3.1-70B70B★★★MoyenLlama3Principalement en anglais
Yi-1.5-34B34B★★★★Assez rapideApache 2.0Choix rapport qualité-prix

1.2 Recommandations de sélection

  • Priorité aux capacités générales : Qwen2.5-72B
  • Budget limité : Yi-1.5-34B ou Qwen2.5-7B
  • Scénario d’inférence : DeepSeek-V3
  • Ressources restreintes : version quantifiée de Qwen2.5-7B
  • Étape 2 : Évaluation de la puissance de calcul

    2.1 Référence des besoins en GPU

    ModèleFP16INT8INT4
    7B1×A100 40G1×A10 24G1×RTX4090 24G
    34B2×A100 80G1×A100 80G1×A100 40G
    72B4×A100 80G2×A100 80G2×A100 40G

    2.2 Estimation des coûts

    ConfigurationCoût d’achatCoût mensuel de locationScénario d’application
    1×RTX409015 000 yuans3 000 yuansTest d’un modèle 7B
    1×A100 40G80 000 yuans15 000 yuansModèles 7B-34B
    2×A100 80G250 000 yuans40 000 yuansModèles 34B-72B
    4×A100 80G500 000 yuans80 000 yuansModèles 72B+

    Étape 3 : Choix du moteur d’inférence

    MoteurDébitLatenceFacilité d’utilisationScénario recommandé
    vLLM★★★★★★★★★★★★★Choix privilégié pour la production
    TGI★★★★★★★★★★★★Priorité à la compatibilité
    TensorRT-LLM★★★★★★★★★★★★Scénario sensible à la latence
    Ollama★★★★★★★★★★★Développement et test locaux

    Notre recommandation : Utilisez vLLM pour la production (débit le plus élevé, communauté active) et Ollama pour le développement et les tests (déploiement en un clic).

    Étape 4 : Quantification du modèle

    4.1 Comparaison des méthodes de quantification

    MéthodePerte de précisionAugmentation de la vitesseRéduction du modèleAdapté à
    FP16→INT8(AWQ)<1%2x2xRecommandé généralement
    FP16→INT4(GPTQ)1%-3%3x4xContrainte de ressources
    FP16→INT4(GGUF)2%-5%3x4xInférence CPU

    4.2 Référence des performances de quantification

    Effets de quantification de Qwen2.5-72B sur l’évaluation en chinois :

    Méthode de quantificationC-EvalVitesse d’inférence (jetons/s)Mémoire GPU utilisée
    FP1683.525144 GB
    AWQ-INT882.84872 GB
    GPTQ-INT481.27240 GB

    Étape 5 : Déploiement conteneurisé

    ```yaml

    docker-compose.yml 示例

    services:

    vllm:

    image: vllm/vllm-openai:latest

    deploy:

    resources:

    reservations:

    devices:

  • capabilities: [gpu]
  • count: 2

    command: >

    --model Qwen/Qwen2.5-72B-Instruct-AWQ

    --quantization awq

    --tensor-parallel-size 2

    --max-model-len 8192

    --gpu-memory-utilization 0.9

    ports:

  • "8000:8000"
  • ```

    Étape 6 : Optimisation des performances

    OptimisationMéthodeEffet
    Continuous BatchingTraitement par lots dynamiqueDébit multiplié par 2-3
    PagedAttentionGestion paginée de la mémoire GPUUtilisation mémoire GPU améliorée de 40 %
    Prefix CachingCache des prompts systèmeLatence des requêtes avec préfixes identiques réduite de 50 %
    Speculative DecodingPetit modèle pour spéculation, grand modèle pour vérificationVitesse d’inférence multipliée par 2-3

    Étape 7 : Surveillance et exploitation

    7.1 Indicateurs clés de surveillance

    IndicateurSeuil d’alerte
    Utilisation GPU> 95 % pendant 5 minutes
    Latence d’inférence P99> 5 secondes
    Taux d’échec des requêtes> 1 %
    Utilisation mémoire GPU> 90 %
    Disponibilité du service de modèle< 99,9 %

    7.2 Stratégies d’exploitation

  • Dimensionnement automatique élastique : ajustement automatique du nombre d’instances d’inférence en fonction du volume de requêtes
  • Déploiement bleu-vert : mise à jour du modèle sans interruption
  • Déploiement progressif : redirection de 5 % du trafic vers le nouveau modèle pour validation
  • Agrégation des logs : suivi des requêtes de bout en bout
  • Conclusion

    Le déploiement privé ne se résume pas à « acheter un serveur et y installer un modèle ». Il faut bien choisir le modèle, dimensionner la puissance de calcul, optimiser l’inférence et assurer l’exploitation pour que le grand modèle privé soit réellement performant. Nous recommandons de commencer par un modèle 7B pour valider rapidement le scénario métier, puis de passer à un modèle 72B une fois la faisabilité confirmée.

    Vous souhaitez en savoir plus sur les solutions de déploiement privé de grands modèles ? Prenez rendez-vous pour une évaluation gratuite de la puissance de calcul