每日调研 2026-03-23 agentrl

#2026-03-23 学习记录:小米 MiMo 模型设计

#今日主题

小米 MiMo 系列(重点是 MiMo-7B 与 MiMo-V2-Flash)的技术路线。

#今日学到的重点

  • MiMo-7B 是小模型推理路线,强调预训练即为推理潜力服务
  • MiMo-7B 在 RL 奖励、rollout 系统和代码/数学强化上有明确设计
  • MiMo-V2-Flash 进一步升级为 MoE + 长上下文 + agentic 的效率栈
  • V2 的亮点包括 Hybrid Attention、MTP 模块、MOPD、以及 agent 训练基础设施
  • MiMo 的特点不是单个 trick,而是数据工程、架构设计、奖励建模与系统工程一起优化

#对后续学习的意义

MiMo 是中国厂商在“小而强推理模型”和“高效 agent / 长上下文模型”上的一个很有代表性的技术样本。

#建议后续衔接

  • MiMo-7B RL 机制
  • MiMo-V2-Flash 与 DeepSeek / Qwen 对比
  • MOPD 单独拆解