主题归档

#Better & Faster Large Language Models via Multi-token Prediction 论文笔记

#论文核心

这篇论文最重要的观点是:

  • 大语言模型不一定只能学 next-token prediction
  • 也可以在训练时同时学习多个未来 token

#为什么重要

它把 multi-token 从单纯“推理加速话题”提升成“训练目标设计问题”。

#论文主要贡献

  1. 在共享 trunk 上增加多个 future-token heads
  2. 让模型在同一位置同时预测多个未来 token
  3. 证明这种训练目标在代码等任务上能带来更好的表现
  4. 为后续 speculative / 多头并行验证路线提供了能力基础

#我的理解

这篇论文最值得看的地方,不是“多预测几个 token”本身,而是它在挑战一个默认前提:

为什么 LLM 训练必须只预测下一个 token?

这个问题后来影响了 DeepSeek-V3 等工业路线,也推动了 MTP 成为正式研究方向。

#建议下一步

  • 把它和 DeepSeek-V3 MTP 设计做逐项比较
  • 把它和 speculative decoding / Medusa 的边界彻底拆清楚