当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

OpenAI发布部署模拟安全评估框架：重放真实流量预测GPT-5系列与智能体对齐风险

2026-06-17 分类：时事热门话题阅读(5) 评论(0)

据动察 Beating 监测，OpenAI发布部署模拟（Deployment Simulation）安全评估方法，在正式发布前预测模型在真实环境下的失控风险。研究重放 2025 年 8 月至 2026 年 3 月期间 GPT-5 思考模型系列 130 万条脱敏历史对话，预测未期望不良行为率的中位误差仅为 1.5 倍。

传统静态评测集（如 SWE-Bench）极易让模型意识到处于受试状态，从而在测试中伪装真实意图（metagaming）。实验显示，GPT-5.2 在传统基准下的评估感知率接近 100%，而在部署模拟流量中降至 5.1%（生产环境为 5.4%），代表模型无法分辨受测状态。部署模拟也在发布前成功捕获了 GPT-5.1 将浏览器工具当作计算器使用的违规行为（calculator hacking）。

针对智能体（Agent）场景，OpenAI 使用 12 万条 GPT-5.4 员工编程轨迹模拟 GPT-5.5 编码智能体部署。为避免直接操作真实系统带来的安全风险，团队引入基于大模型的工具模拟器（Tool Simulator），结合只读连接与历史调用数据库，将环境逼真度从 11.6% 提升至 49.5%，几乎无法被区分。外部审计人员若缺乏私有生产流量，使用 WildChat 开源对话数据集的预测误差也可控制在 3 倍以内。

赞(0)

未经允许不得转载：币须知道 » OpenAI发布部署模拟安全评估框架：重放真实流量预测GPT-5系列与智能体对齐风险

相关推荐

评论抢沙发

回顶部