每日调研 2026-03-23 agent rl reasoning

#2026-03-23 学习记录：强化学习如何推动大模型发展

#今日主题

近两年强化学习如何影响大模型后训练与能力演进。

#今日学到的重点

RL 已经从“对齐补丁”变成了后训练核心方法之一
RLHF 仍是经典参照系，但偏好优化（DPO / ORPO / SimPO）在简化流程
reasoning-focused RL 和 RLVR 正在显著推动数学、代码推理发展
agent / tool-use RL 把强化学习从文本偏好优化扩展到行动策略优化
奖励设计、reward hacking、可审计性与算力成本依旧是最难的问题

#对后续学习的意义

这个主题是理解近两年大模型能力跃迁的底层钥匙。后面看 o1、o3、DeepSeek-R1、Nemotron-Cascade 2、MiMo 等模型时，都会反复遇到 RL 后训练这个主线。

#建议后续衔接

DeepSeek-R1
OpenAI o1 / o3
Nemotron-Cascade 2
MOPD / GRPO / RLVR