当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

腾讯开源网页视觉找茬评测DiffSpot，最强模型漏判六成微小CSS改动

2026-05-29 分类：时事热门话题阅读(44) 评论(0)

据动察 Beating 监测，腾讯在 Hugging Face 放出网页视觉差异评测集 DiffSpot，用来测试多模态大模型能不能看出网页界面里的细小变化。它不是让模型看两张明显不同的图，而是在 HTML 页面里只改一个目标元素的 CSS 属性，再让模型判断哪里变了。

DiffSpot 共包含 4400 对网页截图，其中 3900 对存在真实变化，覆盖 13 类 CSS 修改和 3 档难度；另有 500 对完全相同的截图，用来测试模型会不会无中生有。数据集只保留像素变化落在目标元素内部的样本，减少标注噪声。

结果并不好看。13 款前沿 VLM 零样本测试中，表现最好的 Gemini 3.1 Pro 综合准确率也只有 47.2%，对真实变化的召回率为 40.7%，约六成变化被漏掉。困难档任务里，所有模型召回率都低于 23%。

开源模型里，Kimi K2.5 综合准确率 42.2%，高于 GPT-5.4 的 38.3% 和 Claude Opus 4.7 的 38.9%。Qwen3.5-VL-397B 以 37.6% 位列开源第二。

DiffSpot 还暴露了一个更细的问题：变化大不等于更容易被看见。不同 CSS 属性下，像素变化量和 CLIP 特征距离都不能稳定预测模型召回率。部分模型则走向过度保守，比如 Qwen3-VL-235B-Instruct 在无变化控制组中达到 100.0% 零误判，但真实变化召回率只有 5.1%。

赞(0)

未经允许不得转载：币须知道 » 腾讯开源网页视觉找茬评测DiffSpot，最强模型漏判六成微小CSS改动

相关推荐

评论抢沙发

回顶部