Tag Archive

标签：alignment

这里整理所有带有「alignment」标签的文章，方便按主题快速回看。

alignment

共 3 篇

主题归档 · 2026-06-21

详细解读 OpenAI Alignment 团队的 Beneficial Trait RL 论文：为什么从“让模型完成任务”转向“强化有益人格特质”，它如何构造数据、训练模型、验证跨域泛化与对抗持久性，以及这对 RLHF、模型对齐和未来 Agent 训练意味着什么。

主题归档 · 2026-06-15

系统梳理 DPO 从 RLHF/PPO 替代方案到偏好优化基础组件的发展脉络，分析 IPO、KTO、ORPO、SimPO、Step-DPO、Online DPO 等后续路线，以及 DPO 在 reasoning 与 LLM Agent 场景中的核心瓶颈。

主题归档 · 2026-06-15

系统梳理 LLM 指令遵循从 prompt、多任务指令微调、RLHF、合成指令数据，到复杂约束评测、指令层级、prompt injection 与 agent 行动合规的发展脉络，并分析当前未解问题与研究机会。