★★★★★ · 论文精读 · 2026-06-17
详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
★★★★★ · 主题归档 · 2026-06-17
以 LUFFY 为锚点,梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题,以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。
★★★★★ · 主题归档 · 2026-06-17
深度梳理 LLM 中 reflection、search trace、backtracking 与 test-time compute 的研究线:为什么错误轨迹有时有价值,什么时候回退有效,为什么直接 SFT 反思文本不等于学会搜索,以及这条线对 LLM Agent / Code Agent 的启发。
★★★★★ · 主题归档 · 2026-06-16
梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题,以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。
★★★★★ · 论文精读 · 2026-06-15
详解 Just-In-Time Reinforcement Learning 如何把历史轨迹记忆转成 advantage,在推理时直接加到候选动作 logits 上,从而在不更新参数的情况下实现类似 KL 约束策略优化的 agent 持续学习。