当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

智谱GLM-5V-Turbo技术报告：Design2Code超Claude Opus4.6，看截图直接写代码

2026-05-08 分类：时事热门话题阅读(3) 评论(0)

据动察 Beating 监测，智谱 AI 发布 GLM-5V-Turbo 技术报告。模型 4 月初已上线 Z.ai API 和 OpenRouter，本次是补发的方法论披露，模型未开源。GLM-5V-Turbo 是智谱首个多模态编程基座模型，支持 200K 上下文，可接入 Claude Code 和 OpenClaw 等 agent 框架。与多数把视觉当语言模型附件的做法不同，该模型从预训练阶段就将视觉感知融入推理、规划、工具调用和执行的全流程。

模型架构有三个关键设计。一是新视觉编码器 CogViT，用 SigLIP2 和 DINOv3 做双教师蒸馏预训练，再用 80 亿中英双语图文语料做对比学习对齐。二是多模态多 token 预测（MMTP），用一个共享的可学习 <|image|> 特殊 token 替代直接传递视觉嵌入，降低跨 pipeline 阶段的通信复杂度，训练也更稳定。三是 30 余项任务的联合强化学习，覆盖感知、推理和 agent 执行三个层级。

RL 阶段的提升分布广泛：2D 图像定位 +4.8%、视频理解 +5.6%、3D 定位 +7.7%、OCR +4.2%、图表理解 +7.7%、GUI agent（OSWorld）+4.9%、多模态搜索工具调用 +3.5%。团队在论文中指出，多任务 RL 不同于 SFT 常见的跨域干扰，各能力可以稳定共同提升，甚至一个领域学到的推理模式会迁移到其他领域。

具体跑分：Design2Code 94.8，超过 Claude Opus 4.6；OSWorld 62.3、AndroidWorld 75.7；多模态搜索 MMSearch 72.9、BrowseComp-VL 51.9；纯文本编程在 CC-Bench-V2 的后端（22.8）、前端（68.4）和代码仓库探索（72.2）三项上反超其纯文本底座 GLM-5-Turbo。MMSearch-Plus 得 30.0，比上一代 GLM-4.6V 提升近 8 倍；自建的视觉深度搜索基准 ImageMining 得 30.7。

赞(0)

未经允许不得转载：币须知道 » 智谱GLM-5V-Turbo技术报告：Design2Code超Claude Opus4.6，看截图直接写代码

相关推荐

评论抢沙发

回顶部