中芸汇科技
2026-05-05
निजी तैनातीबड़े मॉडलडेटा सुरक्षा
लेख छवि
लेख छवि

परिचय

वित्त, स्वास्थ्य सेवा, सरकारी कार्य जैसे उद्योगों में डेटा सुरक्षा की कठोर आवश्यकताएँ होती हैं, और सार्वजनिक बड़े मॉडल API अनुपालन आवश्यकताओं को पूरा नहीं कर पाते। इन उद्योगों के लिए बड़े मॉडलों की निजी तैनाती अनिवार्य है।

यह आलेख 10 से अधिक उद्यमों के लिए बड़े मॉडलों की निजी तैनाती के हमारे अनुभव पर आधारित है और इसमें 7 प्रमुख चरणों को व्यवस्थित रूप से समझाया गया है।

चरण 1: मॉडल चयन

1.1 मुख्य ओपन-सोर्स मॉडलों की तुलना

मॉडलपैरामीटर संख्याचीनी भाषा क्षमताअनुमान गतिओपन-सोर्स लाइसेंसअनुशंसित परिदृश्य
Qwen2.5-72B72B★★★★★मध्यमApache 2.0सामान्य परिदृश्य के लिए पहली पसंद
Qwen2.5-7B7B★★★★तेज़Apache 2.0हल्के परिदृश्य
DeepSeek-V3671B MoE★★★★★तेज़MITपर्याप्त बजट होने पर
ChatGLM4-9B9B★★★★तेज़Apache 2.0संवाद परिदृश्य
Llama3.1-70B70B★★★मध्यमLlama3मुख्यतः अंग्रेज़ी
Yi-1.5-34B34B★★★★काफ़ी तेज़Apache 2.0मूल्य-प्रदर्शन संतुलन

1.2 चयन सुझाव

  • सामान्य क्षमता प्राथमिकता: Qwen2.5-72B
  • सीमित बजट: Yi-1.5-34B या Qwen2.5-7B
  • अनुमान परिदृश्य: DeepSeek-V3
  • संसाधन सीमित होने पर: Qwen2.5-7B क्वांटाइज़्ड संस्करण
  • चरण 2: कंप्यूट आकलन

    2.1 GPU आवश्यकता संदर्भ

    मॉडलFP16INT8INT4
    7B1×A100 40G1×A10 24G1×RTX4090 24G
    34B2×A100 80G1×A100 80G1×A100 40G
    72B4×A100 80G2×A100 80G2×A100 40G

    2.2 लागत अनुमान

    विन्यासखरीद लागतमासिक किराया लागतउपयुक्त परिदृश्य
    1×RTX409015,000 युआन3,000 युआन7B मॉडल परीक्षण
    1×A100 40G80,000 युआन15,000 युआन7B-34B मॉडल
    2×A100 80G2.5 लाख युआन40,000 युआन34B-72B मॉडल
    4×A100 80G5 लाख युआन80,000 युआन72B+ मॉडल

    चरण 3: अनुमान इंजन चयन

    इंजनथ्रूपुटविलंबताउपयोग में आसानीअनुशंसित परिदृश्य
    vLLM★★★★★★★★★★★★★उत्पादन परिवेश के लिए पहली पसंद
    TGI★★★★★★★★★★★★संगतता प्राथमिकता
    TensorRT-LLM★★★★★★★★★★★★विलंबता-संवेदनशील परिदृश्य
    Ollama★★★★★★★★★★★स्थानीय विकास परीक्षण

    हमारी अनुशंसा: उत्पादन के लिए vLLM (सर्वोच्च थ्रूपुट, सक्रिय समुदाय), विकास परीक्षण के लिए Ollama (एक-क्लिक तैनाती)।

    चरण 4: मॉडल क्वांटाइज़ेशन

    4.1 क्वांटाइज़ेशन विधियों की तुलना

    विधिसटीकता हानिगति वृद्धिमॉडल आकार में कमीउपयुक्त
    FP16→INT8 (AWQ)<1%2x2xसामान्य अनुशंसित
    FP16→INT4 (GPTQ)1%-3%3x4xसीमित संसाधन
    FP16→INT4 (GGUF)2%-5%3x4xCPU अनुमान

    4.2 क्वांटाइज़ेशन प्रभाव संदर्भ

    Qwen2.5-72B चीनी मूल्यांकन पर क्वांटाइज़ेशन प्रभाव:

    क्वांटाइज़ेशन प्रकारC-Evalअनुमान गति (Tokenizer/s)GPU मेमोरी उपयोग
    FP1683.525144GB
    AWQ-INT882.84872GB
    GPTQ-INT481.27240GB

    चरण 5: कंटेनरीकृत तैनाती

    ```yaml

    docker-compose.yml उदाहरण

    services:

    vllm:

    image: vllm/vllm-openai:latest

    deploy:

    resources:

    reservations:

    devices:

  • capabilities: [gpu]
  • count: 2

    command: >

    --model Qwen/Qwen2.5-72B-Instruct-AWQ

    --quantization awq

    --tensor-parallel-size 2

    --max-model-len 8192

    --gpu-memory-utilization 0.9

    ports:

  • "8000:8000"
  • ```

    चरण 6: प्रदर्शन अनुकूलन

    अनुकूलन मदविधिप्रभाव
    Continuous Batchingगतिशील बैच प्रसंस्करणथ्रूपुट 2-3 गुना बढ़ता है
    PagedAttentionमेमोरी पेजिंग प्रबंधनGPU मेमोरी उपयोग दक्षता 40% बढ़ती है
    Prefix Cachingसिस्टम प्रॉम्प्ट कैशिंगसमान प्रीफ़िक्स अनुरोधों की विलंबता 50% कम होती है
    Speculative Decodingछोटा मॉडल ड्राफ़्ट, बड़ा मॉडल सत्यापनअनुमान गति 2-3 गुना बढ़ती है

    चरण 7: निगरानी और संचालन

    7.1 प्रमुख निगरानी संकेतक

    संकेतकअलर्ट सीमा
    GPU उपयोग>95% लगातार 5 मिनट तक
    अनुमान विलंबता P99>5 सेकंड
    अनुरोध विफलता दर>1%
    GPU मेमोरी उपयोग>90%
    मॉडल सेवा उपलब्धता<99.9%

    7.2 संचालन रणनीतियाँ

  • स्वचालित लोचदार स्केलिंग: अनुरोध मात्रा के अनुसार अनुमान इंस्टेंस की संख्या स्वचालित रूप से समायोजित करें
  • ब्लू-ग्रीन तैनाती: मॉडल अपडेट में शून्य डाउनटाइम
  • कैनरी रिलीज़: नए मॉडल पर पहले 5% ट्रैफ़िक परीक्षण करें
  • लॉग एग्रीगेशन: संपूर्ण अनुरोध श्रृंखला की ट्रेसिंग
  • उपसंहार

    निजी तैनाती केवल "एक सर्वर खरीदकर मॉडल इंस्टॉल करना" नहीं है। सही मॉडल चुनें, पर्याप्त कंप्यूट संसाधन जुटाएँ, अनुमान को अनुकूलित करें और संचालन को बेहतर बनाएँ, तभी निजी बड़े मॉडल वास्तव में उपयोगी बन सकते हैं। सुझाव है कि पहले 7B मॉडल से व्यावसायिक परिदृश्य का त्वरित सत्यापन करें, फिर जब व्यवहार्यता सिद्ध हो जाए तो 72B मॉडल पर अपग्रेड करें।

    बड़े मॉडलों की निजी तैनाती योजना जानना चाहते हैं? निःशुल्क कंप्यूट आकलन बुक करें