据 动察 Beating 监测,面壁智能与清华 NLP 实验室在 OpenBMB 社区联合开源全球首个完全由 AI 编写的生产级大模型预训练框架 ForgeTrain,并发布由 ForgeTrain 训练的端侧小模型 MiniCPM5-1B。作为首个展示「AI 制造 AI」工程闭环的样本,ForgeTrain 在相同硬件条件下性能超越英伟达的 Megatron,在华为昇腾上预训练时也实现了 10% 的加速。同时,MiniCPM5-1B 登顶 Artificial Analysis 开放权重小模型榜第一。
为了让 AI 自主构建底层预训练基础设施,面壁智能提出「代工工程」(Forge Engineering)软件编程范式,摒弃兼容一切硬件与任务的通用框架,转而利用 AI 低成本代码生成能力为特定模型和硬件现场锻造专用代码。在构建机制上,ForgeTrain 采用三阶段方法:首先从现有预训练框架采集关键数据形成测试考场(Harness),接着在自动闭环中迭代生成二进制一致的框架代码,最终解除限制并实现对参考实现的超越。整个自动化演进对应 AI 制造 AI 的 L3 至 L4 阶段。
作为 ForgeTrain 的首个产出模型,MiniCPM5-1B 拥有 10.8 亿参数,核心架构基于标准的 LlamaForCausalLM 设计,大幅降低了下游集成与推理部署门槛。在 Artificial Analysis 评测中,模型以 18 分超越 2B 规模的 Qwen3.5-2B(16 分),并领先 Qwen3.5-0.8B(11 分)与 LFM2.5-1.2B-Thinking(8 分)。模型支持 MLX 4-bit 与 GGUF Q4_K_M 等部署格式,INT4 量化后权重仅为 0.5GB,并原生支持 131,072 tokens 长文本上下文与基于 enable_thinking 的混合双模推理。依托极低的硬件开销,OpenBMB 同步开源了纯离线运行的桌面浮窗伴侣应用 MiniCPM Desk Pet,支持实时响应 Cursor 等开发工具中的编码活动与 LoRA 人设切换。
币须知道