当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

谷歌Pixel部署零拷贝MTP，Gemini Nano推理提速超50%且省内存

2026-06-28 分类：时事热门话题阅读(2) 评论(0)

据动察 Beating 监测，谷歌在 Pixel 9 与 Pixel 10 系列设备中部署了多 Token 预测（MTP）架构，直接加速内置的 Gemini Nano v3 模型。通过将轻量级 Transformer 预测头附加到已冻结的主模型尾部，新架构在完全保留原有安全对齐与输出质量的同时，将设备端推理速度提升了 50% 以上。

传统的投机解码需要运行一个独立的草稿模型来预测候选 Token。这不仅额外抢占手机的运行内存，且由于独立模型无法访问主模型的内部隐藏状态，导致预测准确率受限。新架构通过在冻结的主模型尾部嵌入 MTP 头，成功复用主模型已计算的特征激活，显著提升了候选 Token 的预测准确率。

为避免草稿计算在自回归生成时产生重复的运行内存开销，谷歌设计了零拷贝（zero-copy）机制。传统方案中，草稿模型生成候选词时需要维护独立的键值缓存（KV cache）记忆，而零拷贝机制让外挂预测头直接通过交叉注意力（Cross-Attention）去读取主模型已有的缓存。这不仅消除了草稿预测的启动延迟，还为手机节省了约 130MB 的运行内存空间。

在通知摘要与文本校对等 Pixel 实际业务中，MTP 架构使模型单次推理平均能成功多预测近 2 个 Token，降低了主处理器因校验而频繁被唤醒的频率，从而节省了系统功耗。在智能回复等高度结构化文本生成任务中，Token 接受率提升达 55%。

赞(0)

未经允许不得转载：币须知道 » 谷歌Pixel部署零拷贝MTP，Gemini Nano推理提速超50%且省内存

相关推荐

评论抢沙发

回顶部