#2026-03-23 学习记录:Multi-Token Prediction
#今日主题
大模型中的 multi-token prediction(MTP)研究进展,以及它与 speculative decoding 的区别。
#今日学到的重点
- MTP 是训练目标层面的改造,不只是推理技巧
- 它的核心是:同一位置同时学习多个未来 token
- 训练侧收益包括更密集的监督信号和更好的长程建模潜力
- 推理侧收益通常要和 speculative / 多头并行验证机制结合才能释放
- Better & Faster MTP 是该方向的重要代表工作
- DeepSeek-V3 则体现了工业系统如何把 MTP 接进训练与推理协同设计中
#对后续学习的意义
MTP 是理解“训练目标还能怎么改”的关键方向,也和代码模型、推理模型、推理加速栈直接相关。
#建议后续衔接
- Better & Faster MTP 论文
- DeepSeek-V3 technical report
- speculative decoding / Medusa / self-speculative