परिचय
वित्त, स्वास्थ्य सेवा, सरकारी कार्य जैसे उद्योगों में डेटा सुरक्षा की कठोर आवश्यकताएँ होती हैं, और सार्वजनिक बड़े मॉडल API अनुपालन आवश्यकताओं को पूरा नहीं कर पाते। इन उद्योगों के लिए बड़े मॉडलों की निजी तैनाती अनिवार्य है।
यह आलेख 10 से अधिक उद्यमों के लिए बड़े मॉडलों की निजी तैनाती के हमारे अनुभव पर आधारित है और इसमें 7 प्रमुख चरणों को व्यवस्थित रूप से समझाया गया है।
चरण 1: मॉडल चयन
1.1 मुख्य ओपन-सोर्स मॉडलों की तुलना
| मॉडल | पैरामीटर संख्या | चीनी भाषा क्षमता | अनुमान गति | ओपन-सोर्स लाइसेंस | अनुशंसित परिदृश्य |
|---|---|---|---|---|---|
| Qwen2.5-72B | 72B | ★★★★★ | मध्यम | Apache 2.0 | सामान्य परिदृश्य के लिए पहली पसंद |
| Qwen2.5-7B | 7B | ★★★★ | तेज़ | Apache 2.0 | हल्के परिदृश्य |
| DeepSeek-V3 | 671B MoE | ★★★★★ | तेज़ | MIT | पर्याप्त बजट होने पर |
| ChatGLM4-9B | 9B | ★★★★ | तेज़ | Apache 2.0 | संवाद परिदृश्य |
| Llama3.1-70B | 70B | ★★★ | मध्यम | Llama3 | मुख्यतः अंग्रेज़ी |
| Yi-1.5-34B | 34B | ★★★★ | काफ़ी तेज़ | Apache 2.0 | मूल्य-प्रदर्शन संतुलन |
1.2 चयन सुझाव
चरण 2: कंप्यूट आकलन
2.1 GPU आवश्यकता संदर्भ
| मॉडल | FP16 | INT8 | INT4 |
|---|---|---|---|
| 7B | 1×A100 40G | 1×A10 24G | 1×RTX4090 24G |
| 34B | 2×A100 80G | 1×A100 80G | 1×A100 40G |
| 72B | 4×A100 80G | 2×A100 80G | 2×A100 40G |
2.2 लागत अनुमान
| विन्यास | खरीद लागत | मासिक किराया लागत | उपयुक्त परिदृश्य |
|---|---|---|---|
| 1×RTX4090 | 15,000 युआन | 3,000 युआन | 7B मॉडल परीक्षण |
| 1×A100 40G | 80,000 युआन | 15,000 युआन | 7B-34B मॉडल |
| 2×A100 80G | 2.5 लाख युआन | 40,000 युआन | 34B-72B मॉडल |
| 4×A100 80G | 5 लाख युआन | 80,000 युआन | 72B+ मॉडल |
चरण 3: अनुमान इंजन चयन
| इंजन | थ्रूपुट | विलंबता | उपयोग में आसानी | अनुशंसित परिदृश्य |
|---|---|---|---|---|
| vLLM | ★★★★★ | ★★★★ | ★★★★ | उत्पादन परिवेश के लिए पहली पसंद |
| TGI | ★★★★ | ★★★★ | ★★★★ | संगतता प्राथमिकता |
| TensorRT-LLM | ★★★★ | ★★★★★ | ★★★ | विलंबता-संवेदनशील परिदृश्य |
| Ollama | ★★★ | ★★★ | ★★★★★ | स्थानीय विकास परीक्षण |
हमारी अनुशंसा: उत्पादन के लिए vLLM (सर्वोच्च थ्रूपुट, सक्रिय समुदाय), विकास परीक्षण के लिए Ollama (एक-क्लिक तैनाती)।
चरण 4: मॉडल क्वांटाइज़ेशन
4.1 क्वांटाइज़ेशन विधियों की तुलना
| विधि | सटीकता हानि | गति वृद्धि | मॉडल आकार में कमी | उपयुक्त |
|---|---|---|---|---|
| FP16→INT8 (AWQ) | <1% | 2x | 2x | सामान्य अनुशंसित |
| FP16→INT4 (GPTQ) | 1%-3% | 3x | 4x | सीमित संसाधन |
| FP16→INT4 (GGUF) | 2%-5% | 3x | 4x | CPU अनुमान |
4.2 क्वांटाइज़ेशन प्रभाव संदर्भ
Qwen2.5-72B चीनी मूल्यांकन पर क्वांटाइज़ेशन प्रभाव:
| क्वांटाइज़ेशन प्रकार | C-Eval | अनुमान गति (Tokenizer/s) | GPU मेमोरी उपयोग |
|---|---|---|---|
| FP16 | 83.5 | 25 | 144GB |
| AWQ-INT8 | 82.8 | 48 | 72GB |
| GPTQ-INT4 | 81.2 | 72 | 40GB |
चरण 5: कंटेनरीकृत तैनाती
```yaml
docker-compose.yml उदाहरण
services:
vllm:
image: vllm/vllm-openai:latest
deploy:
resources:
reservations:
devices:
count: 2
command: >
--model Qwen/Qwen2.5-72B-Instruct-AWQ
--quantization awq
--tensor-parallel-size 2
--max-model-len 8192
--gpu-memory-utilization 0.9
ports:
```
चरण 6: प्रदर्शन अनुकूलन
| अनुकूलन मद | विधि | प्रभाव |
|---|---|---|
| Continuous Batching | गतिशील बैच प्रसंस्करण | थ्रूपुट 2-3 गुना बढ़ता है |
| PagedAttention | मेमोरी पेजिंग प्रबंधन | GPU मेमोरी उपयोग दक्षता 40% बढ़ती है |
| Prefix Caching | सिस्टम प्रॉम्प्ट कैशिंग | समान प्रीफ़िक्स अनुरोधों की विलंबता 50% कम होती है |
| Speculative Decoding | छोटा मॉडल ड्राफ़्ट, बड़ा मॉडल सत्यापन | अनुमान गति 2-3 गुना बढ़ती है |
चरण 7: निगरानी और संचालन
7.1 प्रमुख निगरानी संकेतक
| संकेतक | अलर्ट सीमा |
|---|---|
| GPU उपयोग | >95% लगातार 5 मिनट तक |
| अनुमान विलंबता P99 | >5 सेकंड |
| अनुरोध विफलता दर | >1% |
| GPU मेमोरी उपयोग | >90% |
| मॉडल सेवा उपलब्धता | <99.9% |
7.2 संचालन रणनीतियाँ
उपसंहार
निजी तैनाती केवल "एक सर्वर खरीदकर मॉडल इंस्टॉल करना" नहीं है। सही मॉडल चुनें, पर्याप्त कंप्यूट संसाधन जुटाएँ, अनुमान को अनुकूलित करें और संचालन को बेहतर बनाएँ, तभी निजी बड़े मॉडल वास्तव में उपयोगी बन सकते हैं। सुझाव है कि पहले 7B मॉडल से व्यावसायिक परिदृश्य का त्वरित सत्यापन करें, फिर जब व्यवहार्यता सिद्ध हो जाए तो 72B मॉडल पर अपग्रेड करें।
बड़े मॉडलों की निजी तैनाती योजना जानना चाहते हैं? निःशुल्क कंप्यूट आकलन बुक करें