#强化学习如何推动大模型发展
#主题定位
这个主题关注:
- RLHF / RLAIF
- 偏好优化(DPO / ORPO / SimPO)
- reasoning-focused RL
- agent / tool-use RL
- verifiable reward / process reward
#当前阶段总结
过去两年,强化学习已经从“对齐补丁”变成了大模型后训练的核心方法之一。
核心变化:
- RL 不只是让模型更听话,也越来越用于提升推理、代码、agent 能力
- 奖励从人工偏好扩展到可验证结果、结构化规则和 rubric
- 训练目标从单一 RLHF 走向多阶段混合:SFT + 偏好优化 + RL + 蒸馏 + 安全对齐
#关键 takeaways
- 后训练正在成为能力竞争核心
- 可验证奖励推动数学/代码推理快速提升
- agent 训练让 RL 从文本偏好优化走向行动策略优化
- 奖励设计、可审计性、训练成本仍是核心难题
#建议下一步
- 细看 DeepSeek-R1 / OpenAI o1/o3 的 RL 训练叙事
- 补 agent/tool-use RL 的代表系统
- 深入比较 PPO、GRPO、DPO 一类方法的差异