谷歌双雄高难局反超，TERMS-Bench把AI谈判做成破产压力测试

据动察 Beating 监测，斯坦福 Erica Zhang 等人发布了经济谈判测试集 TERMS-Bench。它移除了黑箱的「大模型裁判」，让评测方能直接看清模型到底输在出价、让步还是违规。

在常规测试中，Claude Opus 4.6 和智谱 GLM 5.1 拿下前两名。论文发现，它们采用了「高出价、死不让步」的强硬策略，在利润丰厚的顺风局能把对手榨干。

但在利润空间极窄的最高难度局，强硬策略会因为频繁谈崩而吃亏。榜单在这里直接翻车：懂得适度让步保订单的 Gemma 4 31B（开放权重模型）和 Gemini 3.1 Pro 反超冲到前两名；而此前的领跑者 Claude 掉到第 5，GLM 掉到第 9。

除了测试极限难度，该基准最具冲击力的是测试生存能力的 Bankroll（资金池）模式。单次谈判被拉长成连续采购：每个 Agent 拿 100 美元本金连谈 50 期，每期固定扣运营费，亏完就破产。在这里，微小的谈判失误都会复利成破产危机。

结果显示，前述的 GLM 5.1、Claude Opus 4.6 以及谷歌双雄虽然策略不同，但控盘能力断层领先，全部实现了 100% 存活，最终现金均达到了 380 到 443 美元。相比之下，Grok 4.20 和 GPT-4o-mini 则无法顶住现金流损耗，破产率分别达到 25% 和 50%。

TERMS-Bench 的关键不在成交率，而在把谈判错误换算成现金亏损和破产风险。模型能不能说服对手，只是第一层；在连续交易里能不能守住利润和现金流，才真正拉开差距。

谷歌双雄高难局反超，TERMS-Bench把AI谈判做成破产压力测试

相关推荐

评论抢沙发

归档

热门文章

近期文章

热门标签

相关推荐

评论 抢沙发

归档

热门文章

近期文章

热门标签

评论抢沙发