Tag Archive

标签:RLHF

这里整理所有带有「RLHF」标签的文章,方便按主题快速回看。

RLHF

共 3 篇
主题归档 · 2026-06-15

LLM + DPO 经典工作、发展脉络与未解问题

系统梳理 DPO 从 RLHF/PPO 替代方案到偏好优化基础组件的发展脉络,分析 IPO、KTO、ORPO、SimPO、Step-DPO、Online DPO 等后续路线,以及 DPO 在 reasoning 与 LLM Agent 场景中的核心瓶颈。
LLMDPORLHFpreference optimizationalignmentagent
主题归档 · 2026-06-15

LLM 指令遵循:经典工作、发展脉络、现状与未解问题

系统梳理 LLM 指令遵循从 prompt、多任务指令微调、RLHF、合成指令数据,到复杂约束评测、指令层级、prompt injection 与 agent 行动合规的发展脉络,并分析当前未解问题与研究机会。
LLMinstruction followinginstruction tuningalignmentRLHFagent
主题归档 · 2026-06-14

像给小白一样讲清楚:强化学习到底在解什么数学问题

从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发,用小白能听懂的方式解释强化学习为什么比监督学习难。
强化学习Bellman方程不动点RLHFGRPO数学直觉