资源和性能要求 - AI 智算产品文档

资源和性能要求

更新时间：2025-03-21 11:11:27

独立部署模型对资源具有一定的要求，同时，使用【输入 4k，输出 2k】作为性能测试指标对各模型进行并发压测，具体情况如下：

模型名称	总参数	使用建议	最高并发	总吞吐 tokens/s 输入 4k，输出 2k
QwQ-32B	32B	西北 3 区 4090 24G * 4	32	1749.39
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	西北 3 区 4090 24G * 1	32	7849.39
DeepSeek-R1-Distill-Qwen-7B	7B	西北 3 区 4090 24G * 1	128	2278.93
DeepSeek-R1-Distill-Llama-8B	8B	西北 3 区 4090 24G * 1	64	1476.67
DeepSeek-R1-Distill-Qwen-14B	14B	西北 3 区 4090 24G * 2	128	1476.67
DeepSeek-R1-Distill-Qwen-32B	32B	西北 3 区 4090 24G * 4 华北 2 区 H800 80G * 1	128	1138.49
DeepSeek-R1-Distill-Llama-70B	70B	西北3区 4090 24G * 8 华北 2 区 H800 80G * 2	32	960.78
DeepSeek-R1	671B	华北 2 区 H800 80G * 16	256	3042.49
DeepSeek-V3	671B	华北 2 区 H800 80G * 16	128	1749.39
bge-m3	-	西北 3 区 4090 24G * 1	-	-
bge-reranker-v2-m3	-	西北 3 区 4090 24G * 1	-	-
SenseVoiceSmall	-	西北 3 区 4090 24G * 1	-	-
CosyVoice-300M	-	西北 3 区 4090 24G * 1	-	-