据动察 Beating 监测,OpenAI 技术人员 Clive Chan 称,V4 技术报告整体仍是顶级水平,但给芯片厂商的硬件建议章节「出人意料地平庸甚至有错误」,与 V3 形成反差。V3 硬件章节的 Q&A 曾是学术会议 ISCA 上最热门的讨论环节,建议内容具体到业界正在制定的互连标准,V4 则空泛了许多。
Chan 逐条提出质疑。关于功耗,报告称软件优化让芯片的计算、存储和通信同时满载运行,建议芯片厂商预留更多电力空间。Chan 认为「恰好适得其反」:芯片的总功耗受物理工艺限制,多留电力余量就意味着降低运行频率,算力反而变少。关于 GPU 之间的数据传输方式,报告称选择让 GPU 主动去读取数据(pull),而非让对方推送(push),因为 push 的通知开销太高。Chan 质疑这一判断,认为 pull 反而更慢,应改进网卡的数据处理能力。不过两人讨论的可能不是同一层面的问题:报告说的是通知机制的开销,Chan 说的是传输本身的延迟。关于激活函数,报告建议用更简单的函数替换 SwiGLU 来降低计算负担,Chan 认为没有必要,因为 Sonic MoE 已经证明用 SwiGLU 照样能跑到最优性能。Chan 怀疑 DeepSeek 可能「故意弱化了这个章节」。
币须知道