DeepSeek 系列模型选择
智算平台现已上线全系列 DeepSeek 模型,该系列模型无论是处理复杂的文本任务,还是高精度的图像分析,均能为用户提供可靠且高效的支持。目前平台上全系列 DeepSeek 模型均不限量、不限速。
模型选择
各模型特点
模型名称 | 特点 | 适用场景 | 备注 |
---|---|---|---|
DeepSeek-V3 |
顶级性能,大资源需求,适用于广泛的自然语言处理任务领域。 |
超大规模数据处理、高度复杂自然语言处理任务、智能决策支持、高效计算场景等。 |
- |
DeepSeek-R1 |
顶级性能,大资源需求,适合需要深度推理的专业场景或研究领域。 |
超大规模数据处理,专注于推理任务,比如,复杂逻辑推理、数学建模、代码生成等场景。 |
- |
DeepSeek-R1-Distill-Qwen-1.5B |
低资源消耗和快速响应,部署成本低,适合边端设备部署使用。 |
对精度要求低,要求快速出结果的场景,比如:轻量级任务(短文本生成、基础问答)。 |
- |
DeepSeek-R1-Distill-Qwen-7B |
性能与资源消耗的平衡。 |
适合一般复杂度任务场景,比如:初步AI探索、智能客服、文案生成、表格、统计等。 |
推荐 |
DeepSeek-R1-Distill-Llama-8B |
性能与资源消耗的平衡,资源需求稍高于 7B。 |
适合一般复杂度任务场景,比如:初步AI探索、智能客服、文案生成、表格、统计等。 |
- |
DeepSeek-R1-Distill-Qwen-14B |
处理复杂任务能力强,资源需求一般。 |
适合中等复杂度任务场景,比如:数据分析、智能推荐系统、自然语言处理任务、长文本生成。 |
推荐,对应绝大多数场景 |
DeepSeek-R1-Distill-Qwen-32B |
高性能推理需求,处理复杂任务能力强,资源需求稍高。 |
适合大规模的数据分析场景和复杂自然语言处理任务场景,比如:语言建模、智能推荐系统、智能决策支持等场景。 |
推荐,对应绝大多数场景 |
DeepSeek-R1-Distill-Llama-70B |
高性能推理需求处理复杂任务能力强(资源需求比 32B 高,性能差异不大) |
适合大规模的数据分析场景和复杂自然语言处理任务场景,比如:语言建模、智能推荐系统、智能决策支持等场景。 |
- |
模型选择策略
用户可根据自身定位和适用场景选择合适的 DeepSeek 模型。
用户群体 | 优选模型 | 次选模型 | 备注 |
---|---|---|---|
个人体验派 |
工作、兴趣等非开发类需求,建议优选 R1-Distill 蒸馏模型 1.5B、7B 或 8B |
其次,可选择 R1-Distill 蒸馏模型 14B、32B 或 70B |
一般不建议选择 V3 或 R1 |
企业场景用户 |
建议优选 R1-Distill 蒸馏模型 7B、8B、14B、32B 或 70B |
在充分验证蒸馏模型无法满足需求后,可使用 DeepSeek-V3 或 DeepSeek-R1 满血模型 |
- |
科研机构用户 |
建议优选 DeepSeek-V3、DeepSeek-R1 超大规模模型 |
- |
- |
模型费用
智算平台上的 DeepSeek 模型服务,以实惠的价格、高效稳定的满足用户需求,真正实现低成本、高产出的价值回报。用户可直接调用 API,按 Token 计费;在云端一键部署,在线微调、训练,算力按需付费;也可以通过体验中心直接在线使用。
模型名称 | 输入价格 | 输出价格 |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B |
限时免费 |
限时免费 |
DeepSeek-R1-Distill-Qwen-7B |
限时免费 |
限时免费 |
DeepSeek-R1-Distill-Llama-8B |
限时免费 |
限时免费 |
DeepSeek-R1-Distill-Qwen-14B |
¥0.0002 / 千 tokens |
¥0.0002 / 千 tokens |
DeepSeek-R1-Distill-Qwen-32B |
¥0.0002 / 千 tokens |
¥0.0002 / 千 tokens |
DeepSeek-R1-Distill-Llama-70B |
¥0.0002 / 千 tokens |
¥0.0002 / 千 tokens |
DeepSeek-V3 |
¥0.002 / 千 tokens |
¥0.008 / 千 tokens |
DeepSeek-R1 |
¥0.004 / 千 tokens |
¥0.016 / 千 tokens |
为保护用户数据安全和隐私,以及针对业务的定制化特殊需求,平台提供 DeepSeek 模型的私有化部署服务。用户可将模型部署在企业内容的服务器或数字中心,也可托管服务,仅完全掌控数据存储、处理以及使用过程。
进阶技巧
如何更好的向 DeepSeek-V3 和 DeepSeek-R1 模型表达需求,基本逻辑如下:
需求类型 | 特点 | 需求表达公式 | DeepSeek-R1 使用技巧 | DeepSeek-V3 使用技巧 |
---|---|---|---|---|
决策需求 |
需权衡选项、评估风险、选择最优解 |
目标 + 选项 + 评估标准 |
要求逻辑推演和量化分析 |
直接建议,依赖模型经验归纳 |
分析需求 |
需深度理解数据/信息、发现模式或因果关系 |
问题 + 数据/信息 + 分析方法 |
触发因果链推导与假设验证 |
表层总结或分类 |
创造性需求 |
需生成新颖内容(文本/设计/方案) |
主题 + 风格/约束 + 创新方向 |
结合逻辑框架生成结构化创意 |
自由发散,依赖示例引导 |
验证需求 |
需检查逻辑自洽性 、数据可靠性或方案可行性 |
结论/方案 + 验证方法 + 风险点 |
自主设计验证路径并排查矛盾 |
简单确认,缺乏深度推演 |
执行需求 |
需完成具体操作(代码/计算/流程) |
任务 + 步骤约束 + 输出格式 |
自主优化步骤,兼顾效率与正确性 |
严格按指令执行,无自主优化 |
举例向 DeepSeek-V3 和 DeepSeek-R1 模型提出需求:
任务类型 | 使用模型 | 提示语侧重点 | 示例 | 需避免的提示策略 |
---|---|---|---|---|
数学证明 |
DeepSeek-R1 |
直接提问,无需分步引导 |
“证明勾股定理” |
冗余拆解(如“先画图,再列公式”) |
DeepSeek-V3 |
显式要求分步思考,提供示例 |
“请分三步推导勾股定理,参考: |
直接提问(易跳过关键步骤) |
|
创意写作 |
DeepSeek-V3 |
鼓励发散性,设定角色/风格 |
“以海明威的风格写一个冒险故事” |
过度约束逻辑(如“按时间顺序列出”) |
DeepSeek-V3 |
需明确约束目标,避免自由发挥 |
“写一个包含‘量子’和‘沙漠’短篇小说,不超过200字 ” |
开放式指令(如“ 自由创作 ”) |
|
代码生成 |
DeepSeek-V3 |
细化步骤, 明确输入输出格式 |
“先解释快速排序原理,再写出代码并测试示例” |
模糊需求(如“写个排序代码”) |
DeepSeek-R1 |
简洁需求,信任模型逻辑 |
“用Python实现快速排序” |
分步指导(如“先写递归函数”) |
|
多轮对话 |
DeepSeek-V3 |
自然交互,无需结构化指令 |
“你觉得人工智能的未来会怎样?” |
强制逻辑链条(如“分三点回答”) |
DeepSeek-V3 |
需明确对话目标,避免开放发散 |
“从技术、伦理、经济三方面分析 AI 的未来” |
情感化提问(如“你害怕AI吗?”) |
|
逻辑分析 |
DeepSeek-R1 |
直接抛出复杂问题 |
“分析‘电车难题’中的功利主义与道德主义冲突” |
添加主观引导(如“你认为哪种对?”) |
DeepSeek-V3 |
需拆分问题,逐步追问 |
“先解释电车难题的定义,再对比两种伦理观的差异” |
一次性提问复杂逻辑 |