主题归档 agent rl reasoning

#强化学习如何推动大模型发展

#主题定位

这个主题关注：

RLHF / RLAIF
偏好优化（DPO / ORPO / SimPO）
reasoning-focused RL
agent / tool-use RL
verifiable reward / process reward

#当前阶段总结

过去两年，强化学习已经从“对齐补丁”变成了大模型后训练的核心方法之一。

核心变化：

RL 不只是让模型更听话，也越来越用于提升推理、代码、agent 能力
奖励从人工偏好扩展到可验证结果、结构化规则和 rubric
训练目标从单一 RLHF 走向多阶段混合：SFT + 偏好优化 + RL + 蒸馏 + 安全对齐

#关键 takeaways

后训练正在成为能力竞争核心
可验证奖励推动数学/代码推理快速提升
agent 训练让 RL 从文本偏好优化走向行动策略优化
奖励设计、可审计性、训练成本仍是核心难题

#建议下一步

细看 DeepSeek-R1 / OpenAI o1/o3 的 RL 训练叙事
补 agent/tool-use RL 的代表系统
深入比较 PPO、GRPO、DPO 一类方法的差异