独立部署模型对资源具有一定的要求,同时,使用【输入 4k,输出 2k】作为性能测试指标对各模型进行并发压测,具体情况如下:

模型名称 总参数 使用建议 最高并发 总吞吐 tokens/s
输入 4k,输出 2k

QwQ-32B

32B

西北 3 区 4090 24G * 4

32

1749.39

DeepSeek-R1-Distill-Qwen-1.5B

1.5B

西北 3 区 4090 24G * 1

32

7849.39

DeepSeek-R1-Distill-Qwen-7B

7B

西北 3 区 4090 24G * 1

128

2278.93

DeepSeek-R1-Distill-Llama-8B

8B

西北 3 区 4090 24G * 1

64

1476.67

DeepSeek-R1-Distill-Qwen-14B

14B

西北 3 区 4090 24G * 2

128

1476.67

DeepSeek-R1-Distill-Qwen-32B

32B

  • 西北 3 区 4090 24G * 4

  • 华北 2 区 H800 80G * 1

128

1138.49

DeepSeek-R1-Distill-Llama-70B

70B

  • 西北3区 4090 24G * 8

  • 华北 2 区 H800 80G * 2

32

960.78

DeepSeek-R1

671B

华北 2 区 H800 80G * 16

256

3042.49

DeepSeek-V3

671B

华北 2 区 H800 80G * 16

128

1749.39

bge-m3

-

西北 3 区 4090 24G * 1

-

-

bge-reranker-v2-m3

-

西北 3 区 4090 24G * 1

-

-

SenseVoiceSmall

-

西北 3 区 4090 24G * 1

-

-

CosyVoice-300M

-

西北 3 区 4090 24G * 1

-

-