Tag Archive

标签:LLM Reasoning

这里整理所有带有「LLM Reasoning」标签的文章,方便按主题快速回看。

LLM Reasoning

共 4 篇
论文精读 · 2026-06-17

LUFFY 论文详解:Learning to Reason under Off-Policy Guidance

详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
LLM ReasoningRLVROff-PolicyGRPOLUFFYReasoning RL
主题归档 · 2026-06-16

Think SFT 的 Off-Policy 问题:从反思轨迹到 On-Policy Distillation 的研究线

梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题,以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。
LLM ReasoningSFTOff-PolicyOn-Policy DistillationAgent RL
主题归档 · 2026-06-11

大模型会反思吗?从 CoT、搜索轨迹到长推理的研究脉络

从 CoT、Self-Consistency、Verifier、ToT/ReAct/Reflexion 到 Stream of Search、Self-Backtracking 与 RL 长 CoT,梳理大模型“反思”和长推理能力到底是什么、哪里有效、哪里会失效,以及未来如何提升。
LLM ReasoningChain-of-ThoughtReflectionTest-Time ComputeBacktracking
主题归档 · 2026-06-04

把 CoT 压成一个统一 think token:从 Pause Token 到潜空间推理的研究脉络

调研“把显式思考过程替换成统一 token,让模型表面输出空白思考、内部完成计算”这一想法的可行性、已有工作和研究机会。
LLM ReasoningChain-of-ThoughtLatent ReasoningTest-Time ComputeResearch Survey