据动察 Beating 监测,腾讯在 Hugging Face 放出网页视觉差异评测集 DiffSpot,用来测试多模态大模型能不能看出网页界面里的细小变化。它不是让模型看两张明显不同的图,而是在 HTML 页面里只改一个目标元素的 CSS 属性,再让模型判断哪里变了。
DiffSpot 共包含 4400 对网页截图,其中 3900 对存在真实变化,覆盖 13 类 CSS 修改和 3 档难度;另有 500 对完全相同的截图,用来测试模型会不会无中生有。数据集只保留像素变化落在目标元素内部的样本,减少标注噪声。
结果并不好看。13 款前沿 VLM 零样本测试中,表现最好的 Gemini 3.1 Pro 综合准确率也只有 47.2%,对真实变化的召回率为 40.7%,约六成变化被漏掉。困难档任务里,所有模型召回率都低于 23%。
开源模型里,Kimi K2.5 综合准确率 42.2%,高于 GPT-5.4 的 38.3% 和 Claude Opus 4.7 的 38.9%。Qwen3.5-VL-397B 以 37.6% 位列开源第二。
DiffSpot 还暴露了一个更细的问题:变化大不等于更容易被看见。不同 CSS 属性下,像素变化量和 CLIP 特征距离都不能稳定预测模型召回率。部分模型则走向过度保守,比如 Qwen3-VL-235B-Instruct 在无变化控制组中达到 100.0% 零误判,但真实变化召回率只有 5.1%。
币须知道