据动察 Beating 监测,Sakana AI 联合 KPMG 日本 Azsa 审计公司推出多智能体长周期经济学评测基准 CoffeeBench,通过模拟真实商业环境来检验大模型的长期决策能力。传统的评测大多只让单个模型在静态环境中执行任务,CoffeeBench 则构建了一个需要多方博弈与谈判的动态市场。论文已被 ICML 2026 智能体失效模式工作坊 (ICML 2026 Workshop Failure Modes in Agentic AI) 收录。
评测模拟了一个由 2 家咖啡农、2 家烘焙商和 2 家零售商构成的咖啡供应链体系。在评测中,受试模型负责运营 1 家烘焙商,在 90 天的模拟周期内,通过发送消息、报价交易、支付账单和赊账结算等工具自主维持经营。如果智能体消极应对,每日产生的固定成本将迅速耗尽流动资金,迫使大模型像真实企业一样精打细算。
多款主流大模型的横向评测展现出了截然不同的「商战性格」。GPT-5.5 与 Claude Opus 4.7 表现为「积极沟通型」,频繁与上下游谈判价格并高频撮合订单以扩大销售;Gemini 3.1 Pro 属于「被动响应型」,极少主动发信,但会高频查阅并响应交易对手盘的信息;Kimi K2.6 虽然工具调用极为频繁,但由于缺乏合理的定价纪律与谈判策略,陷入了「高流水、零利润」的忙碌陷阱。
最令人意外的是 Claude Haiku 4.5 表现出的「拖延症」停滞现象。推论日志表明,Claude Haiku 4.5 能够制定出完美的商业策略,并清醒意识到需要低价采购原材料以应对市场需求,但在执行工具时却反复选择待机命令 (wait_for_next_day)。规划与执行的严重脱节导致商业活动完全停摆,使模型在固定成本消耗下陷入巨额亏损。
评测还尝试对智能体施加极端的销售目标压力。尽管目前大模型尚未进化出通过虚假循环交易 (circular trading) 虚增销售额的认知,但研究指出,随着长期规划与协同能力提升,智能体未来完全有可能为了业绩压力而走向经济违规。如何审计并防范智能体在经济活动中的违规与欺诈,将成为安全治理的全新课题。
币须知道