Tag Archive

标签：SFT

这里整理所有带有「SFT」标签的文章，方便按主题快速回看。

SFT

共 3 篇

主题归档 · 2026-06-16

Think SFT 的 Off-Policy 问题：从反思轨迹到 On-Policy Distillation 的研究线

梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题，以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。

LLM Reasoning SFT Off-Policy On-Policy Distillation Agent RL

主题归档 · 2026-06-15

Think / Reasoning 模型的 SFT：和传统指令微调有什么不同？

系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异，分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作，并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。

LLM reasoning model think model SFT long-CoT RLVR distillation

论文精读 · 2026-06-10

Post-training is (Massive) Supervised Learning：后训练正在把 LLM 带回“大规模监督学习”吗？

这篇 position paper 认为，当前 LLM 的大规模后训练正在把评测分布变成训练分布；即使从随机初始化开始，只靠数学/代码 SFT 数据也能在对应 benchmark 上取得不低成绩，因此很多“推理能力”可能首先是分布拟合能力，而不是开放泛化能力。

LLM post-training supervised learning SFT RL reasoning meta-learning