加密知识一站通
行情·工具·策略

9B小模型自主更新智能体技能,收益逼平Claude旗舰级大模型

动察 Beating 监测,大模型智能体常通过更新外部「装备」(Harness,包含提示词、记忆、技能与工具)进行自演化。宾夕法尼亚州立大学、 UCSC 及亚马逊等机构发布的最新论文《Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents》首次将演化过程解耦为演化器的「装备更新」与执行端的「装备受益」两个维度。交叉测试表明,装备更新能力在模型基底能力上呈现明显的「平坦化」特征。不同模型更新装备带来的收益差距最大仅 3.1 %,甚至 9B 大小的 Qwen3.5-9B 产出的更新技能在程序结构上已与旗舰级 Claude Opus 4.6 高度等价。这表明开发自演化系统时,无需在演化器角色上耗费高成本模型。

相反,智能体从装备中获益的能力呈现「非单调」趋势。顶级模型表现已接近天花板,而弱模型(如 Qwen3-32B)虽然提升空间最大,实际获益却最少。研究指出弱模型存在两大失效模式。首先是「装备激活失败」,弱模型在 SkillsBench 基准中的技能加载率仅为 25.1 %,而强模型加载率则高达 96 % 左右。其次是「装备遵循失败」,随着长程执行轨迹展开,弱模型的指令遵循度会从加载初期的 0.52 骤降至 0.13。

前沿发现引发了知名 AI 研究员 Elvis Sar(@omarsar0)的强烈共鸣。Elvis Sar 指出自己在编码智能体与长程任务实验中观察到了完全一致的现象:更强大的模型并不总是能演化出更优秀的智能体。本篇论文为智能体系统架构设计提供了重要指引,表明应当将算力预算倾斜给执行智能体,并在智能体训练中重点强化装备自主唤醒与长程指令遵循能力。

赞(0)
未经允许不得转载:币须知道 » 9B小模型自主更新智能体技能,收益逼平Claude旗舰级大模型

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址