Tag Archive

标签：RLVR

这里整理所有带有「RLVR」标签的文章，方便按主题快速回看。

RLVR

共 7 篇

主题归档 · 2026-06-21

PPO 在 Agentic RL 中的应用与进展：从 RLHF 到长轨迹 Agent 训练

梳理 PPO 如何从 RLHF 的标准算法，演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架，并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。

PPO Agentic RL LLM Agent RLHF RLVR GRPO Credit Assignment Post-training

论文精读 · 2026-06-17

LUFFY 论文详解：Learning to Reason under Off-Policy Guidance

详解 arXiv:2504.14945 的 LUFFY：为什么纯 on-policy RLVR 会受限于模型初始能力，为什么朴素 SFT 又容易僵硬模仿，以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。

LLM Reasoning RLVR Off-Policy GRPO LUFFY Reasoning RL

论文精读 · 2026-06-17

VibeThinker-3B：3B 小模型能否逼近一线可验证推理能力？

详解 VibeThinker-3B 技术报告：如何用 Spectrum-to-Signal 后训练范式、multi-domain RL、offline self-distillation 与 claim-level test-time scaling，把 3B dense 小模型推到数学和代码等可验证推理任务的一线性能区间。

LLM Reasoning Small Language Models Post-training RLVR Code Reasoning Test-time Scaling

主题归档 · 2026-06-17

从 LUFFY 看 reasoning SFT 的 off-policy 问题：从“背高手答案”到在学生分布上学习

以 LUFFY 为锚点，梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题，以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。

LLM Reasoning Think SFT Off-Policy RLVR OPD Distillation

主题归档 · 2026-06-17

让模型学会回退：LLM Search Trace / Backtracking 研究脉络综述

深度梳理 LLM 中 reflection、search trace、backtracking 与 test-time compute 的研究线：为什么错误轨迹有时有价值，什么时候回退有效，为什么直接 SFT 反思文本不等于学会搜索，以及这条线对 LLM Agent / Code Agent 的启发。

LLM Reasoning Backtracking Search Trace Reflection Test-Time Compute RLVR

主题归档 · 2026-06-15

Think / Reasoning 模型的 SFT：和传统指令微调有什么不同？

系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异，分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作，并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。

LLM reasoning model think model SFT long-CoT RLVR distillation

主题归档 · 2026-04-30

数学数据能提升代码能力吗？代码数据能反哺数学推理吗？

数学与代码能力确实存在迁移，但不是简单对称迁移：代码更像形式化执行与工具使用的底座，常常更强地反哺数学；数学数据更强地提升抽象推理与可验证训练信号，对代码的提升依赖任务形态与训练阶段。

LLM 数学推理代码智能预训练后训练数据配比 RLVR