据动察 Beating 监测,谷歌研究院发布智能体记忆框架 ReasoningBank,让大模型驱动的智能体在部署后持续学习。核心做法是把过往任务的成功和失败经验都提炼成通用的推理策略存入记忆库,下次遇到类似任务先检索再执行。相关论文在 ICLR 发表,代码已在 GitHub 开源。
此前两类主流方案各有缺陷:Synapse 记录完整行动轨迹,粒度太细难迁移;Agent Workflow Memory 只从成功案例提炼工作流。ReasoningBank 改了两处:存储对象从「动作序列」换成「推理模式」,每条记忆含标题、描述、内容三段结构化字段;失败轨迹也纳入学习。模型调用另一个大模型对执行轨迹自评,失败经验被拆成防踩坑规则,例如从「看见 Load More 按钮就点」升级为「先核对当前页面标识,避免陷入无限滚动,再点击加载更多」。
论文另提出 Memory-aware Test-time Scaling(MaTTS),在推理时投入更多算力反复尝试,并把探索过程存入记忆库。并行扩展让智能体对同一任务跑多条不同轨迹,通过自对比提炼更稳健的策略;顺序扩展在单条轨迹内反复精修,把中间推理记入记忆库。
在 WebArena 浏览器任务和 SWE-Bench-Verified 代码任务两个基准上,用 Gemini 2.5 Flash 做 ReAct 智能体,ReasoningBank 相比无记忆基线在 WebArena 上成功率高 8.3%,SWE-Bench-Verified 上高 4.6%,每项任务平均少走约 3 步;叠加 MaTTS 并行扩展(k=5)后,WebArena 成功率再提 3 个百分点,步数再少 0.4 步。
币须知道