当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

最强开源模型 deepseek v4终于来了！1.6万亿参数模型，MIT许可，长文本显存压到V3.2十分之一

2026-04-24 分类：时事热门话题阅读(4) 评论(0)

据动察 Beating 监测，DeepSeek 开源 V4 系列预览版，MIT 许可，权重已上线 Hugging Face 和 ModelScope。系列含两款 MoE 模型：V4-Pro 总参数 1.6T、每 token 激活 49B（490 亿）；V4-Flash 总参数 284B（2840 亿）、激活 13B（130 亿）。两款均支持 1M token 上下文。

架构三项升级：混合注意力机制（压缩稀疏注意力 CSA + 重度压缩注意力 HCA）大幅降低长上下文开销，1M 上下文下 V4-Pro 单 token 推理 FLOPs 仅为 V3.2 的 27%，KV 缓存（推理时存储历史信息的显存占用）仅为 V3.2 的 10%；流形约束超连接 mHC 替代传统残差连接，增强跨层信号传播稳定性；训练改用 Muon 优化器加速收敛。预训练数据超 32T token。

后训练分两阶段：先用 SFT 和 GRPO 强化学习分别训练各领域专家，再用在线蒸馏统一合并成一个模型。V4-Pro-Max（最高推理力度模式）自称当前最强开源模型，编码基准达到顶级，推理和 agent 任务与闭源前沿差距显著缩小。V4-Flash-Max 在给足思考预算后推理表现接近 Pro，但纯知识和复杂 agent 任务上受限于参数规模。权重以 FP4+FP8 混合精度存储。

赞(0)

未经允许不得转载：币须知道 » 最强开源模型 deepseek v4终于来了！1.6万亿参数模型，MIT许可，长文本显存压到V3.2十分之一

相关推荐

评论抢沙发

回顶部