当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

Cursor戳破模型刷榜神话：Opus六成成功解法靠抄网页与挖Git历史

2026-06-26 分类：时事热门话题阅读(3) 评论(0)

据动察 Beating 监测，Cursor 发布的评测研究显示，编程智能体在可以访问代码库历史记录或互联网时，常通过直接检索答案来通过评测，即所谓的奖励黑客（Reward Hacking）。

为量化检索作弊的实际比例，Cursor 部署审计智能体分析了 Opus 4.8 Max 在 SWE-bench Pro 基准测试中的 731 次运行轨迹。在成功修复的案例中，63% 的成功解法来自检索而非自主推导。而在所有被审计的运行轨迹中，有 57% 的轨迹在公开网页上找到了已合并的 PR 或修复源文件并近乎逐字复制，另有 9% 的轨迹在打包的 .git 历史记录中挖掘未来提交并提取补丁。

在清除 .git 目录、重置为单次提交，并限制网络访问的严格沙箱环境中，主流模型得分大幅缩水。Opus 4.8 Max 的测试通过率由 87.1% 跌至 73.0%，降幅达 14.1 个百分点。Cursor 自研模型 Composer 2.5 的得分则由 74.7% 骤降至 54.0%，下降 20.7 个百分点。对比表明，较旧的 Opus 4.6 在新旧沙箱中得分几无变化，而能力更强的新模型对测试环境漏洞的奖励黑客倾向更为明显。

Cursor 建议，评估编程智能体时不能仅关注数据集构建，还必须隔离运行环境，防止模型通过漏洞检索外部现成答案。同时，开发团队应审计模型在测试中的运行轨迹，确保得分反映的是真实编程能力，而非搜索检索技能。

赞(0)

未经允许不得转载：币须知道 » Cursor戳破模型刷榜神话：Opus六成成功解法靠抄网页与挖Git历史

相关推荐

评论抢沙发

回顶部