★★★★★ · 主题归档 · 2026-06-19
基于 Awesome-AgenticLLM-RL-Papers 中 Search & Research Agent 与 Code Agent 两节,梳理 Agentic RL 如何把检索与代码从一次性生成问题推进到长轨迹、可验证、可自我改进的智能体训练问题。
★★★★★ · 论文精读 · 2026-06-18
解读 arXiv 2604.06628:reasoning SFT 的泛化不是“有/没有”的二元问题,而是由优化充分性、数据质量与结构、基础模型能力共同决定,并且伴随安全退化代价。
★★★★★ · 论文精读 · 2026-06-17
详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
★★★★★ · 主题归档 · 2026-06-17
详细解释 Meta 提出的 Mixture-of-Transformers(MoT)架构:它为什么不是普通 MoE,怎样按模态解耦 Transformer 参数、保留全局自注意力,以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。
★★★★★ · 论文精读 · 2026-06-17
详解 VibeThinker-3B 技术报告:如何用 Spectrum-to-Signal 后训练范式、multi-domain RL、offline self-distillation 与 claim-level test-time scaling,把 3B dense 小模型推到数学和代码等可验证推理任务的一线性能区间。