据 动察 Beating 监测,Codex 的 /goal 模式能让 Agent 不断循环直到完成任务,但这放大了人类含糊其辞的提示词缺陷。OpenAI 工程师 Chris Hayduk 根据内部实操经验指出,像「优化代码」这种模糊指令,会让模型因不知道何为终点而过早放弃,或是陷入盲目修改的死循环。
要让 Agent 稳定打工数天甚至更久,他总结了三条纪律:
– 消灭定性词,用清单替代:模型无法评估什么是「更好」,但能理解「在不挂测试前提下缩短 20% 耗时」。面对论文排版等定性任务时,他甚至直接扔给 Codex 一份包含 200 条格式要求的 Markdown 清单,把抽象任务暴力转化为定量任务——「把勾打满即为完成」。
– 把验证耗时压到分钟级:Agent 需要通过测试来验证动作是否有效。不要让它在庞大的生产环境中跑几个小时,给它抽样数据集和轻型框架,让反馈循环越短越好。
– 建三个文件当「外脑」:即使上下文窗口再大,连跑几天也会丢记忆。他建议直接在本地建三个 Markdown 文件:PLAN.md(宏观计划)、EXPERIMENTS.md(实验得失记录)和 EXPERIMENT_NOTES.md(实时思考草稿),强迫模型把试错过程写在硬盘里。
币须知道