9B小模型自主更新智能体技能，收益逼平Claude旗舰级大模型

据动察 Beating 监测，大模型智能体常通过更新外部「装备」（Harness，包含提示词、记忆、技能与工具）进行自演化。宾夕法尼亚州立大学、 UCSC 及亚马逊等机构发布的最新论文《Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents》首次将演化过程解耦为演化器的「装备更新」与执行端的「装备受益」两个维度。交叉测试表明，装备更新能力在模型基底能力上呈现明显的「平坦化」特征。不同模型更新装备带来的收益差距最大仅 3.1 %，甚至 9B 大小的 Qwen3.5-9B 产出的更新技能在程序结构上已与旗舰级 Claude Opus 4.6 高度等价。这表明开发自演化系统时，无需在演化器角色上耗费高成本模型。

相反，智能体从装备中获益的能力呈现「非单调」趋势。顶级模型表现已接近天花板，而弱模型（如 Qwen3-32B）虽然提升空间最大，实际获益却最少。研究指出弱模型存在两大失效模式。首先是「装备激活失败」，弱模型在 SkillsBench 基准中的技能加载率仅为 25.1 %，而强模型加载率则高达 96 % 左右。其次是「装备遵循失败」，随着长程执行轨迹展开，弱模型的指令遵循度会从加载初期的 0.52 骤降至 0.13。

前沿发现引发了知名 AI 研究员 Elvis Sar（@omarsar0）的强烈共鸣。Elvis Sar 指出自己在编码智能体与长程任务实验中观察到了完全一致的现象：更强大的模型并不总是能演化出更优秀的智能体。本篇论文为智能体系统架构设计提供了重要指引，表明应当将算力预算倾斜给执行智能体，并在智能体训练中重点强化装备自主唤醒与长程指令遵循能力。

9B小模型自主更新智能体技能，收益逼平Claude旗舰级大模型

相关推荐

评论抢沙发

归档

热门文章

近期文章

热门标签

相关推荐

评论 抢沙发

归档

热门文章

近期文章

热门标签

评论抢沙发