Tag Archive

标签:RLVR

这里整理所有带有「RLVR」标签的文章,方便按主题快速回看。

RLVR

共 3 篇
论文精读 · 2026-06-17

LUFFY 论文详解:Learning to Reason under Off-Policy Guidance

详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
LLM ReasoningRLVROff-PolicyGRPOLUFFYReasoning RL
主题归档 · 2026-06-15

Think / Reasoning 模型的 SFT:和传统指令微调有什么不同?

系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异,分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作,并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。
LLMreasoning modelthink modelSFTlong-CoTRLVRdistillation
主题归档 · 2026-04-30

数学数据能提升代码能力吗?代码数据能反哺数学推理吗?

数学与代码能力确实存在迁移,但不是简单对称迁移:代码更像形式化执行与工具使用的底座,常常更强地反哺数学;数学数据更强地提升抽象推理与可验证训练信号,对代码的提升依赖任务形态与训练阶段。
LLM数学推理代码智能预训练后训练数据配比RLVR