#2026-03-23 学习记录:Better & Faster Large Language Models via Multi-token Prediction
#今日主题
Better & Faster MTP 论文核心思想与价值。
#今日学到的重点
- 论文挑战了“LLM 训练只能做 next-token prediction”的默认前提
- 它通过多个 future-token heads,让模型在同一位置同时预测多个未来 token
- 在代码和算法任务上,这种训练目标更能体现收益
- 它的意义不只是训练更好,还为后续 speculative / 多头并行验证加速提供了能力接口
- 这篇论文是 MTP 进入主流讨论的重要起点之一
#对后续学习的意义
它是理解 MTP 研究路线、以及后来工业系统为什么会接入 MTP 的关键起点。
#建议后续衔接
- Better & Faster MTP vs DeepSeek-V3
- MTP vs speculative decoding vs Medusa