据动察 Beating 监测,DeepSeek 开源的 TileKernels 内核库与此前 Yifan Zhang 披露的 V4 架构规格存在多处对应。
Zhang 称 V4 残差连接用 Hyper-Connections。TileKernels 开源的是 mHC(Manifold-Constrained Hyper-Connections)内核,这是 DeepSeek 对字节 Seed 团队 2024 年提出的 HC 加双随机矩阵约束的改进版,解决了原始 HC 在大规模训练时的信号发散问题。mHC 本身属于 Hyper-Connections 的一种,原始 HC 无法支撑大规模稳定训练,V4 实际使用的应该就是 mHC。Zhang 称 V4 用 Fused MoE Mega-Kernel 管理 384 专家激活 6 个的 MoE 层,TileKernels 的 MoE 模块包含 Top-k 专家选择、token 到专家映射和融合的专家分发与收集。
TileKernels 还包含 Engram 的内核,这是 DeepSeek 今年 1 月论文提出的条件记忆模块,但 Zhang 的 V4 规格中没有提到 Engram。库支持 SM90(Hopper)和 SM100(Blackwell),没有华为 Ascend 支持。《The Information》此前报道 V4 在 Blackwell 上训练,DeepSeek 同时花数月将模型适配华为和寒武纪芯片。
币须知道