加密知识一站通
行情·工具·策略

验证:昨日从TileKernels内核代码推测V4架构,三项核心命中、一项落空

动察 Beating 监测,昨天 DeepSeek 开源 TileKernels 内核库后,我们通过库中包含的生产级内核推测 V4 的核心架构组件。今天 V4 模型卡发布,逐项验证如下:

mHC(流形约束超连接):昨天推测 V4 用的不是字节原始 HyperConnection,而是 DeepSeek 改进的 mHC。模型卡确认 V4 使用 Manifold-Constrained Hyper-Connections,命中。MoE 架构和 Top-k 专家路由:昨天 TileKernels 包含完整的 MoE 分发与收集内核,模型卡确认 V4 是 MoE 模型,命中。FP4+FP8 混合精度:昨天库中包含 FP4、FP8 量化内核,模型卡确认权重用 FP4+FP8 混合存储,命中。

唯一没中的是 Engram(条件记忆模块)。昨天我们已经注意到 Yifan Zhang 披露的 V4 规格没提 Engram,措辞留了余地。V4 模型卡同样没有提及 Engram。

模型卡还揭示了 TileKernels 未涉及的新组件:混合注意力机制(CSA + HCA)是 V4 长上下文效率飞跃的核心,1M 上下文下推理 FLOPs 仅 V3.2 的 27%、KV 缓存仅 10%;训练改用 Muon 优化器。

赞(0)
未经允许不得转载:币须知道 » 验证:昨日从TileKernels内核代码推测V4架构,三项核心命中、一项落空

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址