#Better & Faster Large Language Models via Multi-token Prediction 论文笔记
#论文核心
这篇论文最重要的观点是:
- 大语言模型不一定只能学 next-token prediction
- 也可以在训练时同时学习多个未来 token
#为什么重要
它把 multi-token 从单纯“推理加速话题”提升成“训练目标设计问题”。
#论文主要贡献
- 在共享 trunk 上增加多个 future-token heads
- 让模型在同一位置同时预测多个未来 token
- 证明这种训练目标在代码等任务上能带来更好的表现
- 为后续 speculative / 多头并行验证路线提供了能力基础
#我的理解
这篇论文最值得看的地方,不是“多预测几个 token”本身,而是它在挑战一个默认前提:
为什么 LLM 训练必须只预测下一个 token?
这个问题后来影响了 DeepSeek-V3 等工业路线,也推动了 MTP 成为正式研究方向。
#建议下一步
- 把它和 DeepSeek-V3 MTP 设计做逐项比较
- 把它和 speculative decoding / Medusa 的边界彻底拆清楚