Tag Archive

标签：GRPO

这里整理所有带有「GRPO」标签的文章，方便按主题快速回看。

GRPO

共 7 篇

论文精读 · 2026-06-21

"详解 arXiv 2606.17024：ExpRL 如何用参考解答构造 dense reward，解决稀疏奖励 RL 在硬题上的探索覆盖不足问题。"

主题归档 · 2026-06-21

从 GRPO 到 GIGPO、HGPO，解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。

主题归档 · 2026-06-21

梳理 PPO 如何从 RLHF 的标准算法，演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架，并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。

论文精读 · 2026-06-17

详解 arXiv:2504.14945 的 LUFFY：为什么纯 on-policy RLVR 会受限于模型初始能力，为什么朴素 SFT 又容易僵硬模仿，以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。

主题归档 · 2026-06-14

从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发，用小白能听懂的方式解释强化学习为什么比监督学习难。

论文精读 · 2026-06-08

详细拆解小米 MiMo-7B 技术报告中的训练流程：推理导向预训练、MTP 架构、SFT 冷启动、可验证数学/代码 RL、test-difficulty reward、dynamic sampling 与 Seamless Rollout Engine。

论文精读 · 2026-05-26

解读 Microsoft Research 论文 ECHO：把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失，让失败轨迹也产生密集监督，从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。