#小米 MiMo 模型设计
#主题定位
这个主题关注小米 MiMo 系列公开技术信息,当前重点包括:
- MiMo-7B
- MiMo-V2-Flash
#当前阶段总结
MiMo 的路线可以粗略理解为两步:
- MiMo-7B
- 小模型推理路线
- 强调预训练阶段就为数学、代码推理打底
- 再通过 RL 抬高上限
- MiMo-V2-Flash
- 更大规模的 MoE 路线
- 强调长上下文、推理和 agent 能力的效率平衡
- 结合 Hybrid Attention、MTP、MOPD 等设计
#关键 takeaways
- MiMo 不是单靠后训练,而是预训练+RL+系统工程协同优化
- MiMo-7B 重点证明小模型也能有较高推理潜力
- MiMo-V2-Flash 重点在效率栈:MoE + 长上下文 + MTP + agent 训练基础设施
- 公开成绩有参考价值,但仍需更多独立复核
#建议下一步
- 深挖 MiMo-7B 的 RL 奖励设计与 rollout 基础设施
- 对比 MiMo-V2-Flash 与 DeepSeek / Qwen 同代模型的效率设计
- 单独整理 MOPD 机制