加密知识一站通
行情·工具·策略

AI能取代金融分析师?Vals AI新版测试全军覆没,GPT 5.5准确率勉强过半

动察 Beating 监测,AI 评测机构 Vals AI 发布了第二代金融智能体基准测试(Finance Agent v2)。这是一个模拟初级金融分析师工作流的端到端测试,包含 927 道专家审核问题。新版测试的难度大幅飙升,GPT 5.5 仅以 51.76% 的准确率登顶,与 Claude Opus 4.7(51.51%)和 Claude Sonnet 4.6(51.03%)的比分极度胶着。

与单轮问答不同,该测试要求模型在数百页的 10-K 和 10-Q 财报中自主寻找相关段落,处理跨年份财务报表调整,并带着精确的中间数字完成多步计算。Vals AI 透露,如果采用「必须完全答对」的严格评分标准,所有前沿模型的准确率全部跌破 40%;在最难的「财务建模」和「先例分析」类别中,最高分仅有 23%。

在其他模型方面,Kimi K2.6 以 44.87% 排在第五,是得分最高的国产模型;紧随其后的是 GLM 5.1(44.79%)和 DeepSeek V4(44.08%)。此外,官方将「最快速度」标签授予了 Claude Opus 4.7(单次耗时 360 秒),GLM 5.1 则拿下了「最省预算」标签(单次成本 0.62 美元)。

这次测试得分的集体下挫(上一代测试中 Opus 4.7 得分为 64.4%)证明了一点:目前的 AI 已经可以搞定简单的检索,但在需要遵守特定行业惯例、且对数字精准度要求极高的金融深水区,还远远无法取代人类分析师。

赞(0)
未经允许不得转载:币须知道 » AI能取代金融分析师?Vals AI新版测试全军覆没,GPT 5.5准确率勉强过半

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址