主题归档 agentrl

#小米 MiMo 模型设计

#主题定位

这个主题关注小米 MiMo 系列公开技术信息,当前重点包括:

  • MiMo-7B
  • MiMo-V2-Flash

#当前阶段总结

MiMo 的路线可以粗略理解为两步:

  1. MiMo-7B

- 小模型推理路线

- 强调预训练阶段就为数学、代码推理打底

- 再通过 RL 抬高上限

  1. MiMo-V2-Flash

- 更大规模的 MoE 路线

- 强调长上下文、推理和 agent 能力的效率平衡

- 结合 Hybrid Attention、MTP、MOPD 等设计

#关键 takeaways

  1. MiMo 不是单靠后训练,而是预训练+RL+系统工程协同优化
  2. MiMo-7B 重点证明小模型也能有较高推理潜力
  3. MiMo-V2-Flash 重点在效率栈:MoE + 长上下文 + MTP + agent 训练基础设施
  4. 公开成绩有参考价值,但仍需更多独立复核

#建议下一步

  • 深挖 MiMo-7B 的 RL 奖励设计与 rollout 基础设施
  • 对比 MiMo-V2-Flash 与 DeepSeek / Qwen 同代模型的效率设计
  • 单独整理 MOPD 机制