据动察 Beating 监测,智谱 AI 开源模型 GLM-5.2 正式进驻长程软件工程基准 DeepSWE。在最大思考力度模式下,复杂开发任务的一次成功率达到 44%,在开源模型中排名第一。对比此前入榜的 Kimi K2.7 Code,成功率高出 13 个百分点。
GLM-5.2 解决每项任务的平均成本为 3.92 美元,略高于 Kimi K2.7 Code 的 2.82 美元,成功率却超越了多款主流闭源模型在特定思考配置下的表现,包括 Claude Sonnet 4.6 [high] (30%)、Gemini 3.5 Flash [medium] (37%),以及 Claude Opus 4.8 [low] (41%)。
评测发起方 Datacurve 设计的 DeepSWE 基准专门测试 AI 智能体解决长任务的能力。测试包含 113 个真实编程问题,覆盖 5 种语言。与只修改单处代码的传统测试不同,DeepSWE 要求 AI 协同修改多个文件,平均修复代码超过 600 行。评测在隔离容器中运行,严格限制 CPU 和内存资源。
币须知道