#2026-03-23 学习记录:小米 MiMo 模型设计
#今日主题
小米 MiMo 系列(重点是 MiMo-7B 与 MiMo-V2-Flash)的技术路线。
#今日学到的重点
- MiMo-7B 是小模型推理路线,强调预训练即为推理潜力服务
- MiMo-7B 在 RL 奖励、rollout 系统和代码/数学强化上有明确设计
- MiMo-V2-Flash 进一步升级为 MoE + 长上下文 + agentic 的效率栈
- V2 的亮点包括 Hybrid Attention、MTP 模块、MOPD、以及 agent 训练基础设施
- MiMo 的特点不是单个 trick,而是数据工程、架构设计、奖励建模与系统工程一起优化
#对后续学习的意义
MiMo 是中国厂商在“小而强推理模型”和“高效 agent / 长上下文模型”上的一个很有代表性的技术样本。
#建议后续衔接
- MiMo-7B RL 机制
- MiMo-V2-Flash 与 DeepSeek / Qwen 对比
- MOPD 单独拆解