每日调研 2026-03-23 agentrlreasoning

#2026-03-23 学习记录:强化学习如何推动大模型发展

#今日主题

近两年强化学习如何影响大模型后训练与能力演进。

#今日学到的重点

  • RL 已经从“对齐补丁”变成了后训练核心方法之一
  • RLHF 仍是经典参照系,但偏好优化(DPO / ORPO / SimPO)在简化流程
  • reasoning-focused RL 和 RLVR 正在显著推动数学、代码推理发展
  • agent / tool-use RL 把强化学习从文本偏好优化扩展到行动策略优化
  • 奖励设计、reward hacking、可审计性与算力成本依旧是最难的问题

#对后续学习的意义

这个主题是理解近两年大模型能力跃迁的底层钥匙。后面看 o1、o3、DeepSeek-R1、Nemotron-Cascade 2、MiMo 等模型时,都会反复遇到 RL 后训练这个主线。

#建议后续衔接

  • DeepSeek-R1
  • OpenAI o1 / o3
  • Nemotron-Cascade 2
  • MOPD / GRPO / RLVR