#Multi-Token Prediction(MTP)研究进展
#主题定位
这个主题关注:
- 把多个未来 token 作为训练目标
- multi-head / multi-step future token prediction
- 与 speculative decoding、Medusa 等加速路线的区别与联系
#当前阶段总结
MTP 的核心思想是:
- 不再只让模型预测下一个 token
- 而是让模型在同一位置同时学习多个未来 token
它的潜在价值有两类:
- 训练侧:监督信号更密,可能提升表示学习质量
- 推理侧:为并行验证、speculative decoding 提供能力接口
#关键 takeaways
- MTP 不等于 speculative decoding
- MTP 更偏训练目标设计,speculative 更偏推理算法
- 代码、算法类任务更能体现 MTP 的收益
- 工业系统(如 DeepSeek-V3)已经把训练目标式 MTP 和推理加速结合起来
#建议下一步
- 对比 Better & Faster MTP 与 DeepSeek-V3 的 MTP 实现
- 再系统梳理 Medusa / speculative / self-speculative 路线
- 继续关注 MTP 在 agent / code model 中的落地