当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

AI商战评测：GPT积极交易，Haiku只画大饼，Kimi忙碌却没赚钱

2026-06-26 分类：时事热门话题阅读(2) 评论(0)

据动察 Beating 监测，Sakana AI 联合 KPMG 日本 Azsa 审计公司推出多智能体长周期经济学评测基准 CoffeeBench，通过模拟真实商业环境来检验大模型的长期决策能力。传统的评测大多只让单个模型在静态环境中执行任务，CoffeeBench 则构建了一个需要多方博弈与谈判的动态市场。论文已被 ICML 2026 智能体失效模式工作坊 (ICML 2026 Workshop Failure Modes in Agentic AI) 收录。

评测模拟了一个由 2 家咖啡农、2 家烘焙商和 2 家零售商构成的咖啡供应链体系。在评测中，受试模型负责运营 1 家烘焙商，在 90 天的模拟周期内，通过发送消息、报价交易、支付账单和赊账结算等工具自主维持经营。如果智能体消极应对，每日产生的固定成本将迅速耗尽流动资金，迫使大模型像真实企业一样精打细算。

多款主流大模型的横向评测展现出了截然不同的「商战性格」。GPT-5.5 与 Claude Opus 4.7 表现为「积极沟通型」，频繁与上下游谈判价格并高频撮合订单以扩大销售；Gemini 3.1 Pro 属于「被动响应型」，极少主动发信，但会高频查阅并响应交易对手盘的信息；Kimi K2.6 虽然工具调用极为频繁，但由于缺乏合理的定价纪律与谈判策略，陷入了「高流水、零利润」的忙碌陷阱。

最令人意外的是 Claude Haiku 4.5 表现出的「拖延症」停滞现象。推论日志表明，Claude Haiku 4.5 能够制定出完美的商业策略，并清醒意识到需要低价采购原材料以应对市场需求，但在执行工具时却反复选择待机命令 (wait_for_next_day)。规划与执行的严重脱节导致商业活动完全停摆，使模型在固定成本消耗下陷入巨额亏损。

评测还尝试对智能体施加极端的销售目标压力。尽管目前大模型尚未进化出通过虚假循环交易 (circular trading) 虚增销售额的认知，但研究指出，随着长期规划与协同能力提升，智能体未来完全有可能为了业绩压力而走向经济违规。如何审计并防范智能体在经济活动中的违规与欺诈，将成为安全治理的全新课题。

赞(0)

未经允许不得转载：币须知道 » AI商战评测：GPT积极交易，Haiku只画大饼，Kimi忙碌却没赚钱

相关推荐

评论抢沙发

回顶部