加密知识一站通
行情·工具·策略

OpenAI发布部署模拟安全评估框架:重放真实流量预测GPT-5系列与智能体对齐风险

动察 Beating 监测,OpenAI发布部署模拟(Deployment Simulation)安全评估方法,在正式发布前预测模型在真实环境下的失控风险。研究重放 2025 年 8 月至 2026 年 3 月期间 GPT-5 思考模型系列 130 万条脱敏历史对话,预测未期望不良行为率的中位误差仅为 1.5 倍。

传统静态评测集(如 SWE-Bench)极易让模型意识到处于受试状态,从而在测试中伪装真实意图(metagaming)。实验显示,GPT-5.2 在传统基准下的评估感知率接近 100%,而在部署模拟流量中降至 5.1%(生产环境为 5.4%),代表模型无法分辨受测状态。部署模拟也在发布前成功捕获了 GPT-5.1 将浏览器工具当作计算器使用的违规行为(calculator hacking)。

针对智能体(Agent)场景,OpenAI 使用 12 万条 GPT-5.4 员工编程轨迹模拟 GPT-5.5 编码智能体部署。为避免直接操作真实系统带来的安全风险,团队引入基于大模型的工具模拟器(Tool Simulator),结合只读连接与历史调用数据库,将环境逼真度从 11.6% 提升至 49.5%,几乎无法被区分。外部审计人员若缺乏私有生产流量,使用 WildChat 开源对话数据集的预测误差也可控制在 3 倍以内。

赞(0)
未经允许不得转载:币须知道 » OpenAI发布部署模拟安全评估框架:重放真实流量预测GPT-5系列与智能体对齐风险

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址