当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

微软开源Phi-Ground：40亿参数点击准度赢了Operator和Claude

2026-05-10 分类：时事热门话题阅读(4) 评论(0)

据动察 Beating 监测，微软开源了 Phi-Ground 模型家族，专门解决 AI 操控电脑时「该点屏幕哪里」的问题。给一张屏幕截图和一条指令，模型输出精确的点击坐标。开源的 40 亿参数版本搭配大模型做指令规划后，在 Showdown 基准测试中点击准确率超过了 OpenAI Operator 和 Claude Computer Use，并在 ScreenSpot-Pro 等五项评测中拿下百亿参数以下的全部第一。

团队用超过 4000 万条数据做了大规模验证，发现此前学术论文常用的三类训练技巧在数据量拉大后全部失效。真正管用的做法很简单：坐标直接当普通数字输出，比如「523, 417」。此前多篇论文给坐标专门发明了一套位置词汇表，希望模型像说单词一样说坐标，但大规模训练时这些新词根本学不好，反而导致模型崩溃。另一个关键是把文字指令排在图片前面输入。大模型读信息是单向的，先读到「点击蓝色设置图标」再看图，处理像素时就已经知道该找什么；反过来先看图，模型只能盲扫一遍，效果差很多。

团队还发现强化学习对纯视觉任务也有用。具体做法是让模型对同一张图做多次点击预测，挑出点对了和点错了的结果做对比训练（这类方法叫 DPO，属于强化学习的一种）。即使模型已经充分微调过，这一步仍能明显提高准确率。此前强化学习通常只用在需要推理的语言任务上，能在纯「看图指哪打哪」的感知任务上也起作用，是个意外收获。针对 4K 高分屏上按钮太小的问题（一个按钮可能只占屏幕面积的 0.07%），团队在训练时把截图按比例缩小后贴到一张大白底画布上，模拟高分屏下元素极小的真实场景。这一招在 Photoshop 等复杂专业软件上效果尤为明显。

赞(0)

未经允许不得转载：币须知道 » 微软开源Phi-Ground：40亿参数点击准度赢了Operator和Claude

相关推荐

评论抢沙发

回顶部