SemiAnalysis实测：GPT-5.5回到前沿，但OpenAI悄悄藏了一项被Opus压过的成绩

据动察 Beating 监测，半导体与 AI 分析机构 SemiAnalysis 发布编程助手横向评测，覆盖 GPT-5.5、Opus 4.7 和 DeepSeek V4。核心结论：GPT-5.5 是 OpenAI 半年来首次重返前沿的编程模型，SemiAnalysis 的工程师开始在 Codex 和 Claude Code 之间切换，此前几乎全员只用 Claude。GPT-5.5 基于代号「Spud」的新预训练，是 OpenAI 继 GPT-4.5 之后首次扩大预训练规模。

实测中形成了分工：Claude 做新项目规划和初步搭建，Codex 做推理密集的 bug 修复。Codex 在数据结构理解和逻辑推理上更强，但不擅长推断用户的模糊意图。同一个仪表盘任务，Claude 自动复刻了参考页面布局但数据大量编造，Codex 跳过了布局但数据准确得多。

文章揭露了一个基准测试的操作细节：OpenAI 今年 2 月写博客呼吁行业改用 SWE-bench Pro 作为编程基准的新标准，但 GPT-5.5 的公告却换用了一个名为「Expert-SWE」的新基准。原因藏在公告最底部的小字里：GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超过，更远低于 Anthropic 尚未公开的 Mythos（77.8%）。

Opus 4.7 方面，Anthropic 在发布一周后发了 postmortem（事后分析报告），承认 Claude Code 在 3 月至 4 月间存在三个 bug，持续数周，影响几乎所有用户，此前多位工程师反映 4.6 性能下降但被当作主观感受。此外，4.7 的新 tokenizer 会导致 token 用量增加最多 35%，Anthropic 自己承认这一点，相当于隐性涨价。

DeepSeek V4 被评为「紧跟前沿但非领先」，将是闭源模型的最低成本替代品。文章还称「Claude 在中文写作的高难度任务上仍然压过 DeepSeek V4 Pro」，并评论「Claude 用对方的语言赢了中国模型」。

文章提出一个关键概念：衡量模型定价应看「每任务成本」而非「每 token 成本」。GPT-5.5 单价是 GPT-5.4 的 2 倍（输入 5 美元、输出 30 美元 / 百万 token），但用更少的 token 完成同一任务，实际成本未必更高。SemiAnalysis 初步数据显示 Codex 的输入输出比为 80:1，低于 Claude Code 的 100:1。

SemiAnalysis实测：GPT-5.5回到前沿，但OpenAI悄悄藏了一项被Opus压过的成绩

相关推荐

评论抢沙发

归档

热门文章

近期文章

热门标签

相关推荐

评论 抢沙发

归档

热门文章

近期文章

热门标签

评论抢沙发