据动察 Beating 监测,斯坦福 Erica Zhang 等人发布了经济谈判测试集 TERMS-Bench。它移除了黑箱的「大模型裁判」,让评测方能直接看清模型到底输在出价、让步还是违规。
在常规测试中,Claude Opus 4.6 和智谱 GLM 5.1 拿下前两名。论文发现,它们采用了「高出价、死不让步」的强硬策略,在利润丰厚的顺风局能把对手榨干。
但在利润空间极窄的最高难度局,强硬策略会因为频繁谈崩而吃亏。榜单在这里直接翻车:懂得适度让步保订单的 Gemma 4 31B(开放权重模型)和 Gemini 3.1 Pro 反超冲到前两名;而此前的领跑者 Claude 掉到第 5,GLM 掉到第 9。
除了测试极限难度,该基准最具冲击力的是测试生存能力的 Bankroll(资金池)模式。单次谈判被拉长成连续采购:每个 Agent 拿 100 美元本金连谈 50 期,每期固定扣运营费,亏完就破产。在这里,微小的谈判失误都会复利成破产危机。
结果显示,前述的 GLM 5.1、Claude Opus 4.6 以及谷歌双雄虽然策略不同,但控盘能力断层领先,全部实现了 100% 存活,最终现金均达到了 380 到 443 美元。相比之下,Grok 4.20 和 GPT-4o-mini 则无法顶住现金流损耗,破产率分别达到 25% 和 50%。
TERMS-Bench 的关键不在成交率,而在把谈判错误换算成现金亏损和破产风险。模型能不能说服对手,只是第一层;在连续交易里能不能守住利润和现金流,才真正拉开差距。
币须知道