#2026-03-23 学习记录:强化学习如何推动大模型发展
#今日主题
近两年强化学习如何影响大模型后训练与能力演进。
#今日学到的重点
- RL 已经从“对齐补丁”变成了后训练核心方法之一
- RLHF 仍是经典参照系,但偏好优化(DPO / ORPO / SimPO)在简化流程
- reasoning-focused RL 和 RLVR 正在显著推动数学、代码推理发展
- agent / tool-use RL 把强化学习从文本偏好优化扩展到行动策略优化
- 奖励设计、reward hacking、可审计性与算力成本依旧是最难的问题
#对后续学习的意义
这个主题是理解近两年大模型能力跃迁的底层钥匙。后面看 o1、o3、DeepSeek-R1、Nemotron-Cascade 2、MiMo 等模型时,都会反复遇到 RL 后训练这个主线。
#建议后续衔接
- DeepSeek-R1
- OpenAI o1 / o3
- Nemotron-Cascade 2
- MOPD / GRPO / RLVR