当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

AI能取代金融分析师？Vals AI新版测试全军覆没，GPT 5.5准确率勉强过半

2026-05-14 分类：时事热门话题阅读(35) 评论(0)

据动察 Beating 监测，AI 评测机构 Vals AI 发布了第二代金融智能体基准测试（Finance Agent v2）。这是一个模拟初级金融分析师工作流的端到端测试，包含 927 道专家审核问题。新版测试的难度大幅飙升，GPT 5.5 仅以 51.76% 的准确率登顶，与 Claude Opus 4.7（51.51%）和 Claude Sonnet 4.6（51.03%）的比分极度胶着。

与单轮问答不同，该测试要求模型在数百页的 10-K 和 10-Q 财报中自主寻找相关段落，处理跨年份财务报表调整，并带着精确的中间数字完成多步计算。Vals AI 透露，如果采用「必须完全答对」的严格评分标准，所有前沿模型的准确率全部跌破 40%；在最难的「财务建模」和「先例分析」类别中，最高分仅有 23%。

在其他模型方面，Kimi K2.6 以 44.87% 排在第五，是得分最高的国产模型；紧随其后的是 GLM 5.1（44.79%）和 DeepSeek V4（44.08%）。此外，官方将「最快速度」标签授予了 Claude Opus 4.7（单次耗时 360 秒），GLM 5.1 则拿下了「最省预算」标签（单次成本 0.62 美元）。

这次测试得分的集体下挫（上一代测试中 Opus 4.7 得分为 64.4%）证明了一点：目前的 AI 已经可以搞定简单的检索，但在需要遵守特定行业惯例、且对数字精准度要求极高的金融深水区，还远远无法取代人类分析师。

赞(0)

未经允许不得转载：币须知道 » AI能取代金融分析师？Vals AI新版测试全军覆没，GPT 5.5准确率勉强过半

相关推荐

评论抢沙发

回顶部