据动察 Beating 监测,AI 评测机构 Vals AI 发布了第二代金融智能体基准测试(Finance Agent v2)。这是一个模拟初级金融分析师工作流的端到端测试,包含 927 道专家审核问题。新版测试的难度大幅飙升,GPT 5.5 仅以 51.76% 的准确率登顶,与 Claude Opus 4.7(51.51%)和 Claude Sonnet 4.6(51.03%)的比分极度胶着。
与单轮问答不同,该测试要求模型在数百页的 10-K 和 10-Q 财报中自主寻找相关段落,处理跨年份财务报表调整,并带着精确的中间数字完成多步计算。Vals AI 透露,如果采用「必须完全答对」的严格评分标准,所有前沿模型的准确率全部跌破 40%;在最难的「财务建模」和「先例分析」类别中,最高分仅有 23%。
在其他模型方面,Kimi K2.6 以 44.87% 排在第五,是得分最高的国产模型;紧随其后的是 GLM 5.1(44.79%)和 DeepSeek V4(44.08%)。此外,官方将「最快速度」标签授予了 Claude Opus 4.7(单次耗时 360 秒),GLM 5.1 则拿下了「最省预算」标签(单次成本 0.62 美元)。
这次测试得分的集体下挫(上一代测试中 Opus 4.7 得分为 64.4%)证明了一点:目前的 AI 已经可以搞定简单的检索,但在需要遵守特定行业惯例、且对数字精准度要求极高的金融深水区,还远远无法取代人类分析师。
币须知道