Tag Archive

标签：Agent RL

这里整理所有带有「Agent RL」标签的文章，方便按主题快速回看。

Agent RL

共 3 篇

主题归档 · 2026-06-16

Think SFT 的 Off-Policy 问题：从反思轨迹到 On-Policy Distillation 的研究线

梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题，以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。

LLM Reasoning SFT Off-Policy On-Policy Distillation Agent RL

论文精读 · 2026-06-01

MiniMax-M2.7 技术报告详解：10B 激活参数如何撑起 Agentic Intelligence

详解 MiniMax-M2.7 技术报告：从 229.9B 总参数/9.8B 激活参数的 MoE 架构，到 192K 长上下文、MTP 推测解码、agentic 数据管线、Forge 强化学习系统、交错思考与自演化能力，理解“mini activations, max real-world intelligence”背后的系统路线。

MiniMax-M2.7 MoE Agent RL Forge self-evolution interleaved thinking long context

论文精读 · 2026-05-26

ECHO：Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO：把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失，让失败轨迹也产生密集监督，从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。

LLM Agent Agent RL World Model GRPO Terminal Agent Code Agent