论文精读 · 2026-06-17
详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
主题归档 · 2026-06-15
系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异,分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作,并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。
主题归档 · 2026-04-30
数学与代码能力确实存在迁移,但不是简单对称迁移:代码更像形式化执行与工具使用的底座,常常更强地反哺数学;数学数据更强地提升抽象推理与可验证训练信号,对代码的提升依赖任务形态与训练阶段。