据动察 Beating 监测,谷歌在 Pixel 9 与 Pixel 10 系列设备中部署了多 Token 预测(MTP)架构,直接加速内置的 Gemini Nano v3 模型。通过将轻量级 Transformer 预测头附加到已冻结的主模型尾部,新架构在完全保留原有安全对齐与输出质量的同时,将设备端推理速度提升了 50% 以上。
传统的投机解码需要运行一个独立的草稿模型来预测候选 Token。这不仅额外抢占手机的运行内存,且由于独立模型无法访问主模型的内部隐藏状态,导致预测准确率受限。新架构通过在冻结的主模型尾部嵌入 MTP 头,成功复用主模型已计算的特征激活,显著提升了候选 Token 的预测准确率。
为避免草稿计算在自回归生成时产生重复的运行内存开销,谷歌设计了零拷贝(zero-copy)机制。传统方案中,草稿模型生成候选词时需要维护独立的键值缓存(KV cache)记忆,而零拷贝机制让外挂预测头直接通过交叉注意力(Cross-Attention)去读取主模型已有的缓存。这不仅消除了草稿预测的启动延迟,还为手机节省了约 130MB 的运行内存空间。
在通知摘要与文本校对等 Pixel 实际业务中,MTP 架构使模型单次推理平均能成功多预测近 2 个 Token,降低了主处理器因校验而频繁被唤醒的频率,从而节省了系统功耗。在智能回复等高度结构化文本生成任务中,Token 接受率提升达 55%。
币须知道