一、概览#
2026年4月24日,DeepSeek 通过官方微信公众号「深度求索」正式发布 DeepSeek-V4 预览版,同步开源权重与技术报告。V4 系列包含两个版本:
| 规格 | V4-Pro | V4-Flash |
|---|
| 总参数量 | 1.6T (1600B) | 284B |
| 激活参数量 | 49B | 13B |
| 预训练 Token 数 | >33T | >32T |
| 上下文窗口 | 1M (100万) | 1M (100万) |
| 最大输出 | 384K | 384K |
| 架构 | MoE (CSA + HCA Attention) | MoE (CSA + HCA Attention) |
| 精度 | FP4 + FP8 混合 | FP4 + FP8 混合 |
| 许可证 | MIT(完全开源) | MIT(完全开源) |
数据来源:DeepSeek 官方微信公众号、API 文档、HuggingFace 模型卡
二、架构创新:DSA 稀疏注意力#
DeepSeek-V4 的核心创新在于全新的注意力机制:
- Token 维度压缩 + DSA(DeepSeek Sparse Attention)稀疏注意力
- 在 1M 上下文长度下,V4-Pro 的 FLOPs 仅为 V3.2 的 27%,KV Cache 仅为 10%
- V4-Flash 更极致:FLOPs 仅为 V3.2 的 10%,KV Cache 仅为 7%
这意味着百万级上下文不再是”奢侈品”,而是成为 DeepSeek 所有官方服务的标配。
三、V4-Pro 基准测试成绩#
以下数据来自 DeepSeek 官方技术报告与 API 文档,按能力维度分类整理。
知识能力#
| 评测集 | V4-Pro | 说明 |
|---|
| MMLU | 90.1 | 多学科知识 |
| MMLU-Pro | 87.5 | 专业级推理 |
| GPQA Diamond | 90.1 | 研究生级科学推理 |
| C-Eval | 93.1 | 中文综合评测 |
| SimpleQA (Verified) | 57.9% | 世界知识问答 |
| Chinese-SimpleQA | 84.4% | 中文知识问答 |
推理与数学#
| 评测集 | V4-Pro |
|---|
| GSM8K | 92.6 |
| MATH | 64.5 |
| HMMT 2026 Feb | 95.2% |
| IMOAnswerBench | 89.8% |
| Apex Shortlist | 90.2% |
代码能力#
| 评测集 | V4-Pro |
|---|
| HumanEval | 76.8 |
| LiveCodeBench | 93.5 |
| Codeforces Rating | 3206(开源最高,人类排名 #23) |
Agent / 软件工程#
| 评测集 | V4-Pro |
|---|
| SWE Verified | 80.6% |
| SWE Pro | 55.4% |
| Terminal Bench | 67.9 |
| SWE Multilingual | 76.2% |
| MCPAtlas Public | 73.6% |
| Toolathlon | 51.8% |
长上下文(1M)#
| 评测集 | V4-Pro |
|---|
| MRCR 1M | 83.5 |
| CorpusQA 1M | 62.0 |
四、与闭源模型对比#
vs Claude Opus 4.6#
| 评测集 | V4-Pro | Opus 4.6 | 胜出 |
|---|
| SWE Verified | 80.6% | 80.8% | ≈ 几乎持平 |
| Terminal Bench | 67.9 | 65.4 | V4-Pro |
| MRCR 1M | 83.5 | 92.9 | Opus |
| Apex Shortlist | 90.2% | 85.9% | V4-Pro |
| SimpleQA | 57.9 | 46.2 | V4-Pro |
内部评测反馈:优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在差距。
vs GPT-5.4#
| 评测集 | V4-Pro | GPT-5.4 | 胜出 |
|---|
| Codeforces Rating | 3206 | 3168 | V4-Pro |
| MMLU-Pro | 87.5 | ~87-89 | ≈ 持平 |
| GPQA Diamond | 90.1 | ~90 | ≈ 持平 |
| Apex Shortlist | 90.2% | 78.1% | V4-Pro |
| HMMT 2026 Feb | 95.2% | ~95% | ≈ 持平 |
vs Gemini-Pro-3.1#
| 评测集 | V4-Pro | Gemini-3.1-Pro | 胜出 |
|---|
| SimpleQA | 57.9% | 75.6% | Gemini(知识领先) |
| MRCR 1M | 83.5 | 76.3 | V4-Pro(长上下文领先) |
| CorpusQA 1M | 62.0 | 53.8 | V4-Pro |
| MMLU-Pro | 87.5 | ~89-90 | Gemini 略优 |
五、与开源模型对比#
vs Kimi K2.6#
| 评测集 | V4-Pro | K2.6 | 胜出 |
|---|
| MMLU-Pro | 87.5 | 87.1 | V4-Pro |
| SimpleQA | 57.9 | 36.9 | V4-Pro(+21分) |
| Chinese-SimpleQA | 84.4 | 75.9 | V4-Pro |
| SWE Verified | 80.6 | 80.2 | V4-Pro |
| Terminal Bench | 67.9 | 66.7 | V4-Pro |
vs GLM-5.1#
| 评测集 | V4-Pro | GLM-5.1 | 胜出 |
|---|
| Chinese-SimpleQA | 84.4 | 75.0 | V4-Pro |
| Terminal Bench | 67.9 | 63.5 | V4-Pro |
开源定位总结#
- Codeforces Rating 3206 为所有开源模型最高
- 数学 / STEM / 竞赛代码:超越所有已评测开源模型
- 世界知识:大幅领先其他开源模型
六、API 定价对比#
DeepSeek 官方以人民币计价,竞品原价为美元,按汇率 1 USD ≈ 7.2 CNY 折算。
| 模型 | 输入(缓存命中) | 输入(缓存未命中) | 输出 |
|---|
| V4-Flash | ¥0.2 | ¥1 | ¥2 |
| V4-Pro | ¥1 | ¥12 | ¥24 |
| GPT-5.4 | ~¥18 | ~¥36 | ~¥108 |
| GPT-5.5(4月23日发布) | N/A | N/A | ~¥216 |
| Claude Opus 4.6 | ~¥36 | ~¥108 | ~¥180 |
| Kimi K2.6 | ~¥14 | ~¥58 | ~¥58 |
| Gemini-3.1-Pro | ~¥9 | ~¥18 | ~¥72 |
V4-Pro 输出价格(¥24/百万tokens)为闭源竞品的 1/4 ~ 1/7。V4-Flash 输出仅 ¥2/百万tokens,约为 V4-Pro 的 1/12,性价比极高。
七、API 升级说明#
- 新模型名:
deepseek-v4-pro / deepseek-v4-flash
- API 地址与接口不变,支持 OpenAI 与 Anthropic 两种格式
- 均支持思考模式与非思考模式,思考模式支持
reasoning_effort 参数(high / max)
- 旧模型名
deepseek-chat / deepseek-reasoner 将于 2026-07-24 停用
八、开源信息#
- 模型权重:HuggingFace + ModelScope 已发布
- 技术报告:
- 许可证:MIT(完全开源,可商用)
九、信息来源与验证#
本文数据来源全部为官方渠道或经交叉验证的第三方报道:
| 来源 | 类型 | 用途 |
|---|
| DeepSeek 微信公众号「深度求索」 | 官方 | 主公告 |
| DeepSeek 官网(deepseek.com) | 官方 | 横幅确认 |
| API 文档(api-docs.deepseek.com) | 官方 | 定价与新闻页 |
| HuggingFace 模型卡 | 官方 | 基准数据与技术报告 |
| AI-Insight.org | 第三方 | 详细评测分析 |
| IT之家 / 36氪 / 量子位 | 第三方 | 媒体报道交叉验证 |
注意:部分基准测试(如 SWE Verified 80.6%)为 DeepSeek 官方自测,与第三方独立评测(如 Claude Opus 4.7 的 87.6%)使用不同方法,不宜直接对比。
十、写在最后#
DeepSeek-V4 的发布标志着百万上下文进入普惠阶段。V4-Pro 在多维度比肩甚至超越 GPT-5.4 和 Claude Opus 4.6,而 V4-Flash 以极具竞争力的价格($0.28/M 输出)将高性能 AI 的门槛拉到新低。
更值得关注的是:两个版本均以 MIT 协议完全开源,这在顶级模型中是前所未有的。加上 DSA 架构在长上下文场景下的效率飞跃,V4 系列很可能会像当年的 V2 和 R1 一样,再次推动整个开源 AI 生态的进步。