बड़े मॉडल के निजी परिनियोजन के 7 मुख्य चरण: मॉडल चयन (Qwen2.5-72B अनुशंसित, Apache 2.0 लाइसेंस) → कंप्यूटिंग आकलन (72B मॉडल INT4 क्वांटाइज़ेशन के लिए 2×A100 40G आवश्यक) → इन्फ़रेंस इंजन चयन (उत्पादन परिवेश में vLLM प्राथमिकता) → मॉडल क्वांटाइज़ेशन (AWQ-INT8 सटीकता हानि <1%, VRAM बचत 50%) → कंटेनरीकृत परिनियोजन → प्रदर्शन अनुकूलन (Continuous Batching थ्रूपुट 2-3 गुना बढ़ाता है) → निगरानी और संचालन। CAICT के आंकड़ों के अनुसार, 2025 में उद्यम-स्तरीय बड़े मॉडल निजी परिनियोजन की मांग में वार्षिक वृद्धि दर 60% से अधिक है।

चरण 1: मॉडल कैसे चुनें?

प्रमुख ओपन-सोर्स मॉडलों की तुलना

मॉडल	पैरामीटर संख्या	चीनी क्षमता	इन्फ़रेंस गति	ओपन-सोर्स लाइसेंस	अनुशंसित परिदृश्य
Qwen2.5-72B	72B	★★★★★	मध्यम	Apache 2.0	सामान्य परिदृश्य के लिए पहली पसंद
Qwen2.5-7B	7B	★★★★	तेज़	Apache 2.0	हल्के परिदृश्य
DeepSeek-V3	671B MoE	★★★★★	तेज़	MIT	पर्याप्त बजट
ChatGLM4-9B	9B	★★★★	तेज़	Apache 2.0	संवाद परिदृश्य
Llama3.1-70B	70B	★★★	मध्यम	Llama3	अंग्रेज़ी प्रधान
Yi-1.5-34B	34B	★★★★	अपेक्षाकृत तेज़	Apache 2.0	किफ़ायती विकल्प

चयन सुझाव

सामान्य क्षमता प्राथमिकता：Qwen2.5-72B

सीमित बजट：Yi-1.5-34B या Qwen2.5-7B

इन्फ़रेंस परिदृश्य：DeepSeek-V3

सीमित संसाधन：Qwen2.5-7B क्वांटाइज़्ड संस्करण

चरण 2: कंप्यूटिंग आवश्यकता का आकलन कैसे करें?

GPU आवश्यकता संदर्भ

मॉडल	FP16	INT8	INT4
7B	1×A100 40G	1×A10 24G	1×RTX4090 24G
34B	2×A100 80G	1×A100 80G	1×A100 40G
72B	4×A100 80G	2×A100 80G	2×A100 40G

लागत अनुमान

कॉन्फ़िगरेशन	खरीद लागत	मासिक किराया लागत	उपयुक्त परिदृश्य
1×RTX4090	15,000 युआन	3,000 युआन/माह	7B मॉडल परीक्षण
1×A100 40G	80,000 युआन	15,000 युआन/माह	7B-34B मॉडल
2×A100 80G	250,000 युआन	40,000 युआन/माह	34B-72B मॉडल
4×A100 80G	500,000 युआन	80,000 युआन/माह	72B+ मॉडल

चरण 3: इन्फ़रेंस इंजन कैसे चुनें?

इंजन	थ्रूपुट	विलंबता	उपयोग में आसानी	अनुशंसित परिदृश्य
vLLM	★★★★★	★★★★	★★★★	उत्पादन परिवेश के लिए पहली पसंद
TGI	★★★★	★★★★	★★★★	अनुकूलता प्राथमिकता
TensorRT-LLM	★★★★	★★★★★	★★★	विलंबता-संवेदनशील परिदृश्य
Ollama	★★★	★★★	★★★★★	स्थानीय विकास परीक्षण

हमारी अनुशंसा: उत्पादन परिवेश के लिए vLLM (सबसे अधिक थ्रूपुट, सक्रिय समुदाय), विकास/परीक्षण के लिए Ollama (एक-क्लिक परिनियोजन)।

चरण 4: मॉडल क्वांटाइज़ेशन कैसे करें?

क्वांटाइज़ेशन विधियों की तुलना

विधि	सटीकता हानि	गति वृद्धि	मॉडल आकार में कमी	उपयुक्तता
FP16→INT8(AWQ)	<1%	2x	2x	सामान्य अनुशंसा
FP16→INT4(GPTQ)	1%-3%	3x	4x	सीमित संसाधन
FP16→INT4(GGUF)	2%-5%	3x	4x	CPU इन्फ़रेंस

क्वांटाइज़ेशन प्रभाव संदर्भ

Qwen2.5-72B पर चीनी मूल्यांकन में क्वांटाइज़ेशन प्रभाव:

क्वांटाइज़ेशन प्रकार	C-Eval	इन्फ़रेंस गति (टोकन/सेकंड)	VRAM उपयोग
FP16	83.5	25	144GB
AWQ-INT8	82.8	48	72GB
GPTQ-INT4	81.2	72	40GB

चरण 5: कंटेनरीकृत परिनियोजन कैसे कॉन्फ़िगर करें?

```yaml

docker-compose.yml उदाहरण

services:

vllm:

image: vllm/vllm-openai:latest

deploy:

resources:

reservations:

devices:

capabilities: [gpu]

count: 2

command: >

--model Qwen/Qwen2.5-72B-Instruct-AWQ

--quantization awq

--tensor-parallel-size 2

--max-model-len 8192

--gpu-memory-utilization 0.9

ports:

"8000:8000"

```

चरण 6: प्रदर्शन कैसे अनुकूलित करें?

अनुकूलन मद	विधि	प्रभाव
Continuous Batching	डायनेमिक बैच प्रोसेसिंग	थ्रूपुट 2-3 गुना बढ़ता है
PagedAttention	VRAM पेज प्रबंधन	VRAM उपयोग दर 40% बेहतर
Prefix Caching	सिस्टम प्रॉम्प्ट कैशिंग	समान प्रीफ़िक्स अनुरोधों पर विलंब 50% कम
Speculative Decoding	छोटा मॉडल अनुमान, बड़ा मॉडल सत्यापन	इन्फ़रेंस गति 2-3 गुना तेज़

चरण 7: निगरानी और संचालन कैसे करें?

प्रमुख निगरानी मेट्रिक्स

मेट्रिक	अलार्म सीमा
GPU उपयोग दर	>95% लगातार 5 मिनट तक
इन्फ़रेंस विलंब P99	>5 सेकंड
अनुरोध विफलता दर	>1%
VRAM उपयोग दर	>90%
मॉडल सेवा उपलब्धता	<99.9%

संचालन रणनीतियाँ

स्वचालित लोचदार स्केलिंग: अनुरोध मात्रा के अनुसार इन्फ़रेंस इंस्टेंस स्वचालित समायोजन

ब्लू-ग्रीन परिनियोजन: मॉडल अपडेट शून्य डाउनटाइम

ग्रेस्केल रिलीज़: नए मॉडल पर पहले 5% ट्रैफ़िक भेजकर सत्यापन

लॉग एकत्रीकरण: पूर्ण श्रृंखला अनुरोध ट्रेसिंग

सामान्य प्रश्न

बड़े मॉडल के निजी परिनियोजन में कितना निवेश चाहिए?

7B मॉडल निजी परिनियोजन: हार्डवेयर 15,000 युआन (1×RTX4090) + परिनियोजन 30,000-50,000 युआन, कुल 50,000-70,000 युआन। 72B मॉडल: हार्डवेयर 250,000 युआन (2×A100 80G) + परिनियोजन 80,000-120,000 युआन, कुल 330,000-370,000 युआन। IDC के अनुसार, उद्यम बड़े मॉडल निजी परिनियोजन का औसत आरंभिक निवेश 250,000-500,000 युआन है, वार्षिक संचालन लागत 50,000-100,000 युआन।

निजी परिनियोजन और API कॉल में से क्या ज्यादा किफ़ायती है?

मासिक कॉल 5 मिलियन टोकन से कम होने पर API कॉल सस्ती (लगभग 10,000 युआन/माह से कम); 5 मिलियन टोकन से अधिक होने पर निजी परिनियोजन अधिक किफ़ायती (निश्चित लागत नियंत्रणीय)। 72B मॉडल के लिए ब्रेक-ईवन पॉइंट लगभग 8 मिलियन टोकन मासिक। NVIDIA की गणना के अनुसार, 3-वर्षीय TCO परिप्रेक्ष्य में, उच्च उपयोग परिदृश्यों में निजी परिनियोजन API कॉल की तुलना में 40%-60% बचत करता है।

निजी परिनियोजित मॉडल के प्रदर्शन और API में अंतर है?

हां, थोड़ा अंतर होता है। Qwen2.5-72B के उदाहरण में: API संस्करण (Tongyi Qianwen Max) FP16 सटीकता और नवीनतम ऑप्टिमाइज़ेशन का उपयोग करता है, निजी AWQ-INT8 क्वांटाइज़्ड संस्करण की सटीकता हानि लगभग 0.7% है। अधिकांश उद्यम परिदृश्यों में यह अंतर नगण्य है। लेकिन अत्यधिक सटीकता की आवश्यकता वाले परिदृश्यों (जैसे चिकित्सा निदान, कानूनी अनुपालन) के लिए, FP16 संस्करण या बड़े पैरामीटर मॉडल का निजी परिनियोजन अनुशंसित है।

बड़े मॉडल निजी परिनियोजन समाधान के बारे में जानना चाहते हैं? मुफ़्त कंप्यूटिंग आकलन बुक करें