资源和性能要求
更新时间:2025-03-21 11:11:27
独立部署模型对资源具有一定的要求,同时,使用【输入 4k,输出 2k】作为性能测试指标对各模型进行并发压测,具体情况如下:
模型名称 | 总参数 | 使用建议 | 最高并发 | 总吞吐 tokens/s 输入 4k,输出 2k |
---|---|---|---|---|
QwQ-32B |
32B |
西北 3 区 4090 24G * 4 |
32 |
1749.39 |
DeepSeek-R1-Distill-Qwen-1.5B |
1.5B |
西北 3 区 4090 24G * 1 |
32 |
7849.39 |
DeepSeek-R1-Distill-Qwen-7B |
7B |
西北 3 区 4090 24G * 1 |
128 |
2278.93 |
DeepSeek-R1-Distill-Llama-8B |
8B |
西北 3 区 4090 24G * 1 |
64 |
1476.67 |
DeepSeek-R1-Distill-Qwen-14B |
14B |
西北 3 区 4090 24G * 2 |
128 |
1476.67 |
DeepSeek-R1-Distill-Qwen-32B |
32B |
|
128 |
1138.49 |
DeepSeek-R1-Distill-Llama-70B |
70B |
|
32 |
960.78 |
DeepSeek-R1 |
671B |
华北 2 区 H800 80G * 16 |
256 |
3042.49 |
DeepSeek-V3 |
671B |
华北 2 区 H800 80G * 16 |
128 |
1749.39 |
bge-m3 |
- |
西北 3 区 4090 24G * 1 |
- |
- |
bge-reranker-v2-m3 |
- |
西北 3 区 4090 24G * 1 |
- |
- |
SenseVoiceSmall |
- |
西北 3 区 4090 24G * 1 |
- |
- |
CosyVoice-300M |
- |
西北 3 区 4090 24G * 1 |
- |
- |