据动察 Beating 监测,评测机构 Artificial Analysis 调整了 AI 智能指数的评测标准,不再只让 AI 做单项选择题,而是全面考验 AI 能否自主规划、使用工具并解决复杂任务。新评测取消了考验听懂简单指令的旧项目,转而引入模拟银行客服真实对话等高难度场景,并首次将跑完一次任务要花多少钱、耗时多长作为核心考核指标。
在最新的评测结果中,已被美国政府管制下线的 Claude Fable 5 拿到了 60 分的最高成绩。而在目前市面上买得到的 AI 中,最贵的 Claude Opus 4.8 拿到了 56 分的第一名,以微弱优势领先拿到 55 分的 GPT-5.5。国产模型表现也相当亮眼,开源的 DeepSeek V4 Pro 与 MiniMax M3 都拿到了 44 分,紧随其后的是 43 分的 Kimi K2.6。
模型在费用上的差距十分巨大。同样运行一次任务,使用最先进的 Claude Opus 4.8 需要花费 1.78 美元(约合 13 元人民币),而使用国产开源的 DeepSeek V4 Pro 跑一次仅需 0.04 美元(约合 0.3 元人民币)。这意味着 Claude 的调用成本是 DeepSeek 的 44 倍。完成一次任务的等待时间也天差地别,最快的 xAI Grok 4.3 仅需 1.5 分钟,而最慢的 Claude Sonnet 4.6 却需要 13.5 分钟。
作为这次改制中权重最高的单一测试,考核真实世界知识工作的 GDPval-AA 升级到了第二版,占比提升至 20%。新版测试将人类的表现基准分设为 1000 分,并引入多个前沿模型轮换担任裁判,同时将单次对话的回合上限放宽到了 250 次。
币须知道