据动察 Beating 监测,谷歌 DeepMind 高级产品经理、Google AI Studio 产品负责人 Logan Kilpatrick 在 X 上称,每家基于 AI 构建产品的公司都应该建立自己的基准测试(benchmark,用来衡量 AI 模型表现的标准化测试集)。他称这是让模型进步「不成比例地惠及你的公司」的方法,并建议创始人和企业主「明天就开始」。
目前多数公司选 AI 模型靠的是公开排行榜,但这些排行榜测的是通用能力,和具体业务场景往往脱节。比如一家做合同审核的公司,最关心的是条款提取准确率,但公开基准里没有这项测试,模型在这方面的好坏就无从感知。自建基准的好处有二:一是每次模型更新时用自己的业务任务来评估,选出在自己场景下实际最好的模型,而不是公开排名最高的;二是把这些测试集反馈给模型提供商,推动对方在自己关心的方向上持续优化。
Kilpatrick 称 Zapier、Sierra 等公司已在这样做,称「这里有大量可以创造的 alpha(超额收益)」。
币须知道