V4-Pro内部评测：编码通过率逼近Opus4.5，52%内测者认可为默认模型

2026-04-24 分类：时事热门话题阅读(3) 评论(0)

据动察 Beating 监测，V4 罕见公开了内部 dogfooding 数据。团队从 50 余名工程师收集约 200 个真实研发任务，覆盖功能开发、bug 修复、重构和诊断，技术栈包括 PyTorch、CUDA、Rust、C++，经严格筛选后保留 30 个作为评测集。

V4-Pro-Max 通过率 67%，显著高于 Sonnet 4.5 的 47%，接近 Opus 4.5 的 70%，但低于 Opus 4.5 Thinking 的 73% 和 Opus 4.6 Thinking 的 80%。Haiku 4.5 通过率仅 13%。

在一项 N=85 的内部调查中，所有受访者均在日常工作中使用 V4-Pro 做 agentic coding。52% 认为 V4-Pro 可作为默认主力编码模型，39% 倾向认可，不到 9% 否定。反馈的主要问题包括低级错误、对模糊 prompt 的误解，以及偶发的过度思考。

热门文章