据 1M AI News 监测,Twitter 与 Block 联合创始人 Jack Dorsey 推荐了 mesh-llm,一个将闲置 GPU 组成点对点网络、协同运行开源大模型的工具。项目由 Block 应用 AI 团队首席工程师 Michael Neale 开发,是 Block 开源 AI Agent 平台 Goose 生态的一部分,MIT 许可证,Rust 编写。
mesh-llm 的核心逻辑:放得下就单机满速跑,放不下就自动分布。Dense 模型按层切分做流水线并行,MoE 模型(如 Qwen3、GLM、DeepSeek)按专家分片,每个节点独立推理,节点间零流量。实测数据坦诚:GLM-4.7-Flash(17GB)单机 68 tok/s,2 节点 WiFi 分片降至 21 tok/s,3 节点降至 12-13 tok/s,跨城市网络(约 20ms 延迟)为 10-25 tok/s。速度损耗是真实的,但它的目标用户是想跑 142GB 的 Qwen3-235B 或 138GB 的 MiniMax M2.5 却只有一张 24GB 显卡的人——对他们来说,选项不是「快」还是「慢」,而是「能跑」还是「根本跑不了」。
这条路技术上走得通,根本原因在于推理和训练的通信模式截然不同。分布式训练每一步需要同步全部梯度,通信量巨大,对带宽和延迟的要求是数据中心级别;推理的节点间只需传激活值,通信量低得多,而且延迟只影响首 token 时间,不影响每个 token 的吐出速度。这也是为什么「用全球闲置 GPU 训练前沿模型」至今走不通,而 mesh-llm 可以。
币须知道