当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

ARC-AGI-3公布史上最大规模人类测试：所有关卡均被人类攻克，AI仍有差距

2026-04-15 分类：时事热门话题阅读(4) 评论(0)

据动察Beating 监测，ARC Prize 基金会公布了 ARC-AGI-3 的人类表现数据集，这是 ARC-AGI 系列迄今规模最大的人类测试研究，共 458 名参与者。数据集包含 342 条完整的人类操作回放记录，覆盖 25 个公开环境，已全部开源。

ARC-AGI-3 包含 135 个抽象推理环境，测试者不会收到任何玩法说明，必须自行探索、推断规则并制定策略。测试在旧金山的线下测试中心进行，每场 90 分钟，参与者获得约 130 美元底薪加每通关一个环境 5 美元奖励。所有测试均为「首次通关」条件，即每人只看一次、只尝试一次，衡量的是面对全新问题时的学习和适应能力。人类和 AI 获得完全相同的信息，没有任何信息差。

核心结论：ARC-AGI-3 的所有环境均被人类通关，每个环境至少有两名独立参与者完成，多数环境有五人以上通关。ARC Prize 基金会称「我们还没有实现 AGI，这份数据集就是证据」。

自 ARC-AGI-3 预览以来，公开环境已收到近 100 万份 AI 评测提交。基于这些数据，基金会同时宣布两项评分规则调整：一是将每关的人类基准从「第二好的玩家」改为「中位数玩家」，降低运气因素对得分的影响；二是将单关得分上限从 100% 提高到 115%，避免一关表现不佳拖垮整体成绩。两项调整的净效果是人类和 AI 得分均小幅上升约 0.5 个百分点。

赞(0)

未经允许不得转载：币须知道 » ARC-AGI-3公布史上最大规模人类测试：所有关卡均被人类攻克，AI仍有差距

相关推荐

评论抢沙发

回顶部