当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

Artificial Analysis新AI评测显示Claude比DeepSeek贵44倍

2026-06-16 分类：时事热门话题阅读(2) 评论(0)

据动察 Beating 监测，评测机构 Artificial Analysis 调整了 AI 智能指数的评测标准，不再只让 AI 做单项选择题，而是全面考验 AI 能否自主规划、使用工具并解决复杂任务。新评测取消了考验听懂简单指令的旧项目，转而引入模拟银行客服真实对话等高难度场景，并首次将跑完一次任务要花多少钱、耗时多长作为核心考核指标。

在最新的评测结果中，已被美国政府管制下线的 Claude Fable 5 拿到了 60 分的最高成绩。而在目前市面上买得到的 AI 中，最贵的 Claude Opus 4.8 拿到了 56 分的第一名，以微弱优势领先拿到 55 分的 GPT-5.5。国产模型表现也相当亮眼，开源的 DeepSeek V4 Pro 与 MiniMax M3 都拿到了 44 分，紧随其后的是 43 分的 Kimi K2.6。

模型在费用上的差距十分巨大。同样运行一次任务，使用最先进的 Claude Opus 4.8 需要花费 1.78 美元（约合 13 元人民币），而使用国产开源的 DeepSeek V4 Pro 跑一次仅需 0.04 美元（约合 0.3 元人民币）。这意味着 Claude 的调用成本是 DeepSeek 的 44 倍。完成一次任务的等待时间也天差地别，最快的 xAI Grok 4.3 仅需 1.5 分钟，而最慢的 Claude Sonnet 4.6 却需要 13.5 分钟。

作为这次改制中权重最高的单一测试，考核真实世界知识工作的 GDPval-AA 升级到了第二版，占比提升至 20%。新版测试将人类的表现基准分设为 1000 分，并引入多个前沿模型轮换担任裁判，同时将单次对话的回合上限放宽到了 250 次。

赞(0)

未经允许不得转载：币须知道 » Artificial Analysis新AI评测显示Claude比DeepSeek贵44倍

相关推荐

评论抢沙发

回顶部