Tag Archive

标签:GRPO

这里整理所有带有「GRPO」标签的文章,方便按主题快速回看。

GRPO

共 4 篇
论文精读 · 2026-06-17

LUFFY 论文详解:Learning to Reason under Off-Policy Guidance

详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
LLM ReasoningRLVROff-PolicyGRPOLUFFYReasoning RL
主题归档 · 2026-06-14

像给小白一样讲清楚:强化学习到底在解什么数学问题

从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发,用小白能听懂的方式解释强化学习为什么比监督学习难。
强化学习Bellman方程不动点RLHFGRPO数学直觉
论文精读 · 2026-06-08

MiMo-7B 训练过程详解:一个 7B 推理模型是怎样从预训练到 RL 被“养出来”的

详细拆解小米 MiMo-7B 技术报告中的训练流程:推理导向预训练、MTP 架构、SFT 冷启动、可验证数学/代码 RL、test-difficulty reward、dynamic sampling 与 Seamless Rollout Engine。
MiMo-7Breasoning modelpretrainingreinforcement learningGRPOcode RL
论文精读 · 2026-05-26

ECHO:Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。
LLM AgentAgent RLWorld ModelGRPOTerminal AgentCode Agent