每日调研 2026-03-23 agent rl

#2026-03-23 学习记录：小米 MiMo 模型设计

#今日主题

小米 MiMo 系列（重点是 MiMo-7B 与 MiMo-V2-Flash）的技术路线。

#今日学到的重点

MiMo-7B 是小模型推理路线，强调预训练即为推理潜力服务
MiMo-7B 在 RL 奖励、rollout 系统和代码/数学强化上有明确设计
MiMo-V2-Flash 进一步升级为 MoE + 长上下文 + agentic 的效率栈
V2 的亮点包括 Hybrid Attention、MTP 模块、MOPD、以及 agent 训练基础设施
MiMo 的特点不是单个 trick，而是数据工程、架构设计、奖励建模与系统工程一起优化

#对后续学习的意义

MiMo 是中国厂商在“小而强推理模型”和“高效 agent / 长上下文模型”上的一个很有代表性的技术样本。

#建议后续衔接

MiMo-7B RL 机制
MiMo-V2-Flash 与 DeepSeek / Qwen 对比
MOPD 单独拆解