V4-Pro Codeforces3206压GPT-5.4登顶，但长上下文和知识仍输Opus与Gemini

据动察 Beating 监测，V4 技术报告公布 DeepSeek-V4-Pro-Max（最高推理力度模式）与闭源旗舰的对比。对比组为 Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High，以及开源的 Kimi K2.6 和 GLM-5.1，不含最近刚发布的 Opus 4.7 和 GPT-5.5。

编码方面，V4-Pro-Max 在 Codeforces 拿到 3206 分，超过 GPT-5.4 的 3168 和 Gemini 3.1 Pro 的 3052，刷新该基准纪录。LiveCodeBench 93.5 同样全场最高。SWE Verified 80.6，仅低于 Opus 4.6 的 80.8 差 0.2 个百分点。

长上下文方面，两项 1M 基准 V4-Pro-Max 均排第二：CorpusQA 1M 得分 62.0，落后 Opus 4.6 的 71.7 但领先 Gemini 3.1 Pro 的 53.8；MRCR 1M 得分 83.5，Opus 4.6 以 92.9 领先近 10 个百分点。

Agent 任务方面，MCPAtlas Public 73.6 仅低于 Opus 4.6 的 73.8。Terminal-Bench 2.0 得分 67.9，低于 GPT-5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。

知识与推理方面 V4-Pro-Max 仍有明显差距：GPQA Diamond 90.1（Gemini 94.3）、SimpleQA-Verified 57.9（Gemini 75.6）、HLE 37.7（Gemini 44.4）。作为开源模型，V4-Pro-Max 在多项编码和长上下文基准上首次追平甚至超过闭源旗舰，但在知识密集型评测上仍落后 Gemini 3.1 Pro。

需要注意，以上对比不含最近刚发布的 GPT-5.5 和 Opus 4.7，V4 与最新一代闭源模型的差距有待第三方测评验证。

V4-Pro Codeforces3206压GPT-5.4登顶，但长上下文和知识仍输Opus与Gemini

相关推荐

评论抢沙发

归档

热门文章

近期文章

热门标签

相关推荐

评论 抢沙发

归档

热门文章

近期文章

热门标签

评论抢沙发