主题归档 agent rl

#小米 MiMo 模型设计

#主题定位

这个主题关注小米 MiMo 系列公开技术信息，当前重点包括：

MiMo-7B
MiMo-V2-Flash

#当前阶段总结

MiMo 的路线可以粗略理解为两步：

MiMo-7B

- 小模型推理路线

- 强调预训练阶段就为数学、代码推理打底

- 再通过 RL 抬高上限

MiMo-V2-Flash

- 更大规模的 MoE 路线

- 强调长上下文、推理和 agent 能力的效率平衡

- 结合 Hybrid Attention、MTP、MOPD 等设计

#关键 takeaways

MiMo 不是单靠后训练，而是预训练+RL+系统工程协同优化
MiMo-7B 重点证明小模型也能有较高推理潜力
MiMo-V2-Flash 重点在效率栈：MoE + 长上下文 + MTP + agent 训练基础设施
公开成绩有参考价值，但仍需更多独立复核

#建议下一步

深挖 MiMo-7B 的 RL 奖励设计与 rollout 基础设施
对比 MiMo-V2-Flash 与 DeepSeek / Qwen 同代模型的效率设计
单独整理 MOPD 机制