当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

小米披露1T模型MiMo-V2-Pro训练细节：动用数千卡，无职级无deadline

2026-04-24 分类：时事热门话题阅读(4) 评论(0)

据动察 Beating 监测，小米大模型团队负责人罗福莉在首次深度访谈中披露，MiMo-V2-Pro 模型基座总参数量达 1T，训练动用数千张 GPU。她认为，1T 规模是目前实现接近 Claude Opus 4.6 水平、拿到下阶段 Agent 竞争入场券的底线。

技术层面，Pro 版将全局注意力与滑动窗口注意力的比例推向 7:1 的极致稀疏比，在扩大参数量时控制了长文本的推理成本，并沿用 MTP（多 Token 预测）架构利用富余算力加速推理。

管理层面，百人规模的 MiMo 团队中只有三四十人直接投入核心迭代，团队没有设立职级，也没有明确的小组划分和交付 deadline。遇到训练 loss 跳变等不稳定的数值问题时，团队会选择直接停训排查，哪怕停机一两周、耗费数百万算力成本。

赞(0)

未经允许不得转载：币须知道 » 小米披露1T模型MiMo-V2-Pro训练细节：动用数千卡，无职级无deadline

相关推荐

评论抢沙发

回顶部