主题归档 agentrlreasoning

#强化学习如何推动大模型发展

#主题定位

这个主题关注:

  • RLHF / RLAIF
  • 偏好优化(DPO / ORPO / SimPO)
  • reasoning-focused RL
  • agent / tool-use RL
  • verifiable reward / process reward

#当前阶段总结

过去两年,强化学习已经从“对齐补丁”变成了大模型后训练的核心方法之一。

核心变化:

  • RL 不只是让模型更听话,也越来越用于提升推理、代码、agent 能力
  • 奖励从人工偏好扩展到可验证结果、结构化规则和 rubric
  • 训练目标从单一 RLHF 走向多阶段混合:SFT + 偏好优化 + RL + 蒸馏 + 安全对齐

#关键 takeaways

  1. 后训练正在成为能力竞争核心
  2. 可验证奖励推动数学/代码推理快速提升
  3. agent 训练让 RL 从文本偏好优化走向行动策略优化
  4. 奖励设计、可审计性、训练成本仍是核心难题

#建议下一步

  • 细看 DeepSeek-R1 / OpenAI o1/o3 的 RL 训练叙事
  • 补 agent/tool-use RL 的代表系统
  • 深入比较 PPO、GRPO、DPO 一类方法的差异