Tag Archive

标签:Agent RL

这里整理所有带有「Agent RL」标签的文章,方便按主题快速回看。

Agent RL

共 3 篇
主题归档 · 2026-06-16

Think SFT 的 Off-Policy 问题:从反思轨迹到 On-Policy Distillation 的研究线

梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题,以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。
LLM ReasoningSFTOff-PolicyOn-Policy DistillationAgent RL
论文精读 · 2026-06-01

MiniMax-M2.7 技术报告详解:10B 激活参数如何撑起 Agentic Intelligence

详解 MiniMax-M2.7 技术报告:从 229.9B 总参数/9.8B 激活参数的 MoE 架构,到 192K 长上下文、MTP 推测解码、agentic 数据管线、Forge 强化学习系统、交错思考与自演化能力,理解“mini activations, max real-world intelligence”背后的系统路线。
MiniMax-M2.7MoEAgent RLForgeself-evolutioninterleaved thinkinglong context
论文精读 · 2026-05-26

ECHO:Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。
LLM AgentAgent RLWorld ModelGRPOTerminal AgentCode Agent