据动察 Beating 监测,智谱 AI 发布 GLM-5V-Turbo 技术报告。模型 4 月初已上线 Z.ai API 和 OpenRouter,本次是补发的方法论披露,模型未开源。GLM-5V-Turbo 是智谱首个多模态编程基座模型,支持 200K 上下文,可接入 Claude Code 和 OpenClaw 等 agent 框架。与多数把视觉当语言模型附件的做法不同,该模型从预训练阶段就将视觉感知融入推理、规划、工具调用和执行的全流程。
模型架构有三个关键设计。一是新视觉编码器 CogViT,用 SigLIP2 和 DINOv3 做双教师蒸馏预训练,再用 80 亿中英双语图文语料做对比学习对齐。二是多模态多 token 预测(MMTP),用一个共享的可学习 <|image|> 特殊 token 替代直接传递视觉嵌入,降低跨 pipeline 阶段的通信复杂度,训练也更稳定。三是 30 余项任务的联合强化学习,覆盖感知、推理和 agent 执行三个层级。
RL 阶段的提升分布广泛:2D 图像定位 +4.8%、视频理解 +5.6%、3D 定位 +7.7%、OCR +4.2%、图表理解 +7.7%、GUI agent(OSWorld)+4.9%、多模态搜索工具调用 +3.5%。团队在论文中指出,多任务 RL 不同于 SFT 常见的跨域干扰,各能力可以稳定共同提升,甚至一个领域学到的推理模式会迁移到其他领域。
具体跑分:Design2Code 94.8,超过 Claude Opus 4.6;OSWorld 62.3、AndroidWorld 75.7;多模态搜索 MMSearch 72.9、BrowseComp-VL 51.9;纯文本编程在 CC-Bench-V2 的后端(22.8)、前端(68.4)和代码仓库探索(72.2)三项上反超其纯文本底座 GLM-5-Turbo。MMSearch-Plus 得 30.0,比上一代 GLM-4.6V 提升近 8 倍;自建的视觉深度搜索基准 ImageMining 得 30.7。
币须知道