主题归档

#Better & Faster Large Language Models via Multi-token Prediction 论文笔记

#论文核心

这篇论文最重要的观点是：

大语言模型不一定只能学 next-token prediction
也可以在训练时同时学习多个未来 token

#为什么重要

它把 multi-token 从单纯“推理加速话题”提升成“训练目标设计问题”。

#论文主要贡献

在共享 trunk 上增加多个 future-token heads
让模型在同一位置同时预测多个未来 token
证明这种训练目标在代码等任务上能带来更好的表现
为后续 speculative / 多头并行验证路线提供了能力基础

#我的理解

这篇论文最值得看的地方，不是“多预测几个 token”本身，而是它在挑战一个默认前提：

为什么 LLM 训练必须只预测下一个 token？

这个问题后来影响了 DeepSeek-V3 等工业路线，也推动了 MTP 成为正式研究方向。

#建议下一步

把它和 DeepSeek-V3 MTP 设计做逐项比较
把它和 speculative decoding / Medusa 的边界彻底拆清楚