加密知识一站通
行情·工具·策略

谷歌DeepMind产品负责人:每家AI产品公司都该自建基准测试

动察 Beating 监测,谷歌 DeepMind 高级产品经理、Google AI Studio 产品负责人 Logan Kilpatrick 在 X 上称,每家基于 AI 构建产品的公司都应该建立自己的基准测试(benchmark,用来衡量 AI 模型表现的标准化测试集)。他称这是让模型进步「不成比例地惠及你的公司」的方法,并建议创始人和企业主「明天就开始」。

目前多数公司选 AI 模型靠的是公开排行榜,但这些排行榜测的是通用能力,和具体业务场景往往脱节。比如一家做合同审核的公司,最关心的是条款提取准确率,但公开基准里没有这项测试,模型在这方面的好坏就无从感知。自建基准的好处有二:一是每次模型更新时用自己的业务任务来评估,选出在自己场景下实际最好的模型,而不是公开排名最高的;二是把这些测试集反馈给模型提供商,推动对方在自己关心的方向上持续优化。

Kilpatrick 称 Zapier、Sierra 等公司已在这样做,称「这里有大量可以创造的 alpha(超额收益)」。

赞(0)
未经允许不得转载:币须知道 » 谷歌DeepMind产品负责人:每家AI产品公司都该自建基准测试

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址