当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

智谱GLM-5.2登顶DeepSWE开源第一：解决44%复杂开发任务，力压主力闭源模型

2026-06-21 分类：时事热门话题阅读(2) 评论(0)

据动察 Beating 监测，智谱 AI 开源模型 GLM-5.2 正式进驻长程软件工程基准 DeepSWE。在最大思考力度模式下，复杂开发任务的一次成功率达到 44%，在开源模型中排名第一。对比此前入榜的 Kimi K2.7 Code，成功率高出 13 个百分点。

GLM-5.2 解决每项任务的平均成本为 3.92 美元，略高于 Kimi K2.7 Code 的 2.82 美元，成功率却超越了多款主流闭源模型在特定思考配置下的表现，包括 Claude Sonnet 4.6 [high] (30%)、Gemini 3.5 Flash [medium] (37%)，以及 Claude Opus 4.8 [low] (41%)。

评测发起方 Datacurve 设计的 DeepSWE 基准专门测试 AI 智能体解决长任务的能力。测试包含 113 个真实编程问题，覆盖 5 种语言。与只修改单处代码的传统测试不同，DeepSWE 要求 AI 协同修改多个文件，平均修复代码超过 600 行。评测在隔离容器中运行，严格限制 CPU 和内存资源。

赞(0)

未经允许不得转载：币须知道 » 智谱GLM-5.2登顶DeepSWE开源第一：解决44%复杂开发任务，力压主力闭源模型

相关推荐

评论抢沙发

回顶部