为什么你的Agent跑几分钟就罢工？OpenAI工程师：它需要记分牌和外挂记忆

据动察 Beating 监测，Codex 的 /goal 模式能让 Agent 不断循环直到完成任务，但这放大了人类含糊其辞的提示词缺陷。OpenAI 工程师 Chris Hayduk 根据内部实操经验指出，像「优化代码」这种模糊指令，会让模型因不知道何为终点而过早放弃，或是陷入盲目修改的死循环。

要让 Agent 稳定打工数天甚至更久，他总结了三条纪律：
– 消灭定性词，用清单替代：模型无法评估什么是「更好」，但能理解「在不挂测试前提下缩短 20% 耗时」。面对论文排版等定性任务时，他甚至直接扔给 Codex 一份包含 200 条格式要求的 Markdown 清单，把抽象任务暴力转化为定量任务——「把勾打满即为完成」。
– 把验证耗时压到分钟级：Agent 需要通过测试来验证动作是否有效。不要让它在庞大的生产环境中跑几个小时，给它抽样数据集和轻型框架，让反馈循环越短越好。
– 建三个文件当「外脑」：即使上下文窗口再大，连跑几天也会丢记忆。他建议直接在本地建三个 Markdown 文件：PLAN.md（宏观计划）、EXPERIMENTS.md（实验得失记录）和 EXPERIMENT_NOTES.md（实时思考草稿），强迫模型把试错过程写在硬盘里。

为什么你的Agent跑几分钟就罢工？OpenAI工程师：它需要记分牌和外挂记忆

相关推荐

评论抢沙发

归档

热门文章

近期文章

热门标签

相关推荐

评论 抢沙发

归档

热门文章

近期文章

热门标签

评论抢沙发