据动察 Beating 监测,微软开源了 Phi-Ground 模型家族,专门解决 AI 操控电脑时「该点屏幕哪里」的问题。给一张屏幕截图和一条指令,模型输出精确的点击坐标。开源的 40 亿参数版本搭配大模型做指令规划后,在 Showdown 基准测试中点击准确率超过了 OpenAI Operator 和 Claude Computer Use,并在 ScreenSpot-Pro 等五项评测中拿下百亿参数以下的全部第一。
团队用超过 4000 万条数据做了大规模验证,发现此前学术论文常用的三类训练技巧在数据量拉大后全部失效。真正管用的做法很简单:坐标直接当普通数字输出,比如「523, 417」。此前多篇论文给坐标专门发明了一套位置词汇表,希望模型像说单词一样说坐标,但大规模训练时这些新词根本学不好,反而导致模型崩溃。另一个关键是把文字指令排在图片前面输入。大模型读信息是单向的,先读到「点击蓝色设置图标」再看图,处理像素时就已经知道该找什么;反过来先看图,模型只能盲扫一遍,效果差很多。
团队还发现强化学习对纯视觉任务也有用。具体做法是让模型对同一张图做多次点击预测,挑出点对了和点错了的结果做对比训练(这类方法叫 DPO,属于强化学习的一种)。即使模型已经充分微调过,这一步仍能明显提高准确率。此前强化学习通常只用在需要推理的语言任务上,能在纯「看图指哪打哪」的感知任务上也起作用,是个意外收获。针对 4K 高分屏上按钮太小的问题(一个按钮可能只占屏幕面积的 0.07%),团队在训练时把截图按比例缩小后贴到一张大白底画布上,模拟高分屏下元素极小的真实场景。这一招在 Photoshop 等复杂专业软件上效果尤为明显。
币须知道