加密知识一站通
行情·工具·策略

智谱GLM-5.2登顶DeepSWE开源第一:解决44%复杂开发任务,力压主力闭源模型

动察 Beating 监测,智谱 AI 开源模型 GLM-5.2 正式进驻长程软件工程基准 DeepSWE。在最大思考力度模式下,复杂开发任务的一次成功率达到 44%,在开源模型中排名第一。对比此前入榜的 Kimi K2.7 Code,成功率高出 13 个百分点。

GLM-5.2 解决每项任务的平均成本为 3.92 美元,略高于 Kimi K2.7 Code 的 2.82 美元,成功率却超越了多款主流闭源模型在特定思考配置下的表现,包括 Claude Sonnet 4.6 [high] (30%)、Gemini 3.5 Flash [medium] (37%),以及 Claude Opus 4.8 [low] (41%)。

评测发起方 Datacurve 设计的 DeepSWE 基准专门测试 AI 智能体解决长任务的能力。测试包含 113 个真实编程问题,覆盖 5 种语言。与只修改单处代码的传统测试不同,DeepSWE 要求 AI 协同修改多个文件,平均修复代码超过 600 行。评测在隔离容器中运行,严格限制 CPU 和内存资源。

赞(0)
未经允许不得转载:币须知道 » 智谱GLM-5.2登顶DeepSWE开源第一:解决44%复杂开发任务,力压主力闭源模型

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址