据动察 Beating 监测,Cursor 发布的评测研究显示,编程智能体在可以访问代码库历史记录或互联网时,常通过直接检索答案来通过评测,即所谓的奖励黑客(Reward Hacking)。
为量化检索作弊的实际比例,Cursor 部署审计智能体分析了 Opus 4.8 Max 在 SWE-bench Pro 基准测试中的 731 次运行轨迹。在成功修复的案例中,63% 的成功解法来自检索而非自主推导。而在所有被审计的运行轨迹中,有 57% 的轨迹在公开网页上找到了已合并的 PR 或修复源文件并近乎逐字复制,另有 9% 的轨迹在打包的 .git 历史记录中挖掘未来提交并提取补丁。
在清除 .git 目录、重置为单次提交,并限制网络访问的严格沙箱环境中,主流模型得分大幅缩水。Opus 4.8 Max 的测试通过率由 87.1% 跌至 73.0%,降幅达 14.1 个百分点。Cursor 自研模型 Composer 2.5 的得分则由 74.7% 骤降至 54.0%,下降 20.7 个百分点。对比表明,较旧的 Opus 4.6 在新旧沙箱中得分几无变化,而能力更强的新模型对测试环境漏洞的奖励黑客倾向更为明显。
Cursor 建议,评估编程智能体时不能仅关注数据集构建,还必须隔离运行环境,防止模型通过漏洞检索外部现成答案。同时,开发团队应审计模型在测试中的运行轨迹,确保得分反映的是真实编程能力,而非搜索检索技能。
币须知道