主题归档 · 2026-06-16
梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题,以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。
论文精读 · 2026-06-01
详解 MiniMax-M2.7 技术报告:从 229.9B 总参数/9.8B 激活参数的 MoE 架构,到 192K 长上下文、MTP 推测解码、agentic 数据管线、Forge 强化学习系统、交错思考与自演化能力,理解“mini activations, max real-world intelligence”背后的系统路线。
论文精读 · 2026-05-26
解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。