据动察 Beating 监测,半导体与 AI 分析机构 SemiAnalysis 发布编程助手横向评测,覆盖 GPT-5.5、Opus 4.7 和 DeepSeek V4。核心结论:GPT-5.5 是 OpenAI 半年来首次重返前沿的编程模型,SemiAnalysis 的工程师开始在 Codex 和 Claude Code 之间切换,此前几乎全员只用 Claude。GPT-5.5 基于代号「Spud」的新预训练,是 OpenAI 继 GPT-4.5 之后首次扩大预训练规模。
实测中形成了分工:Claude 做新项目规划和初步搭建,Codex 做推理密集的 bug 修复。Codex 在数据结构理解和逻辑推理上更强,但不擅长推断用户的模糊意图。同一个仪表盘任务,Claude 自动复刻了参考页面布局但数据大量编造,Codex 跳过了布局但数据准确得多。
文章揭露了一个基准测试的操作细节:OpenAI 今年 2 月写博客呼吁行业改用 SWE-bench Pro 作为编程基准的新标准,但 GPT-5.5 的公告却换用了一个名为「Expert-SWE」的新基准。原因藏在公告最底部的小字里:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超过,更远低于 Anthropic 尚未公开的 Mythos(77.8%)。
Opus 4.7 方面,Anthropic 在发布一周后发了 postmortem(事后分析报告),承认 Claude Code 在 3 月至 4 月间存在三个 bug,持续数周,影响几乎所有用户,此前多位工程师反映 4.6 性能下降但被当作主观感受。此外,4.7 的新 tokenizer 会导致 token 用量增加最多 35%,Anthropic 自己承认这一点,相当于隐性涨价。
DeepSeek V4 被评为「紧跟前沿但非领先」,将是闭源模型的最低成本替代品。文章还称「Claude 在中文写作的高难度任务上仍然压过 DeepSeek V4 Pro」,并评论「Claude 用对方的语言赢了中国模型」。
文章提出一个关键概念:衡量模型定价应看「每任务成本」而非「每 token 成本」。GPT-5.5 单价是 GPT-5.4 的 2 倍(输入 5 美元、输出 30 美元 / 百万 token),但用更少的 token 完成同一任务,实际成本未必更高。SemiAnalysis 初步数据显示 Codex 的输入输出比为 80:1,低于 Claude Code 的 100:1。
币须知道