Tag Archive

标签:SFT

这里整理所有带有「SFT」标签的文章,方便按主题快速回看。

SFT

共 3 篇
主题归档 · 2026-06-16

Think SFT 的 Off-Policy 问题:从反思轨迹到 On-Policy Distillation 的研究线

梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题,以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。
LLM ReasoningSFTOff-PolicyOn-Policy DistillationAgent RL
主题归档 · 2026-06-15

Think / Reasoning 模型的 SFT:和传统指令微调有什么不同?

系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异,分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作,并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。
LLMreasoning modelthink modelSFTlong-CoTRLVRdistillation
论文精读 · 2026-06-10

Post-training is (Massive) Supervised Learning:后训练正在把 LLM 带回“大规模监督学习”吗?

这篇 position paper 认为,当前 LLM 的大规模后训练正在把评测分布变成训练分布;即使从随机初始化开始,只靠数学/代码 SFT 数据也能在对应 benchmark 上取得不低成绩,因此很多“推理能力”可能首先是分布拟合能力,而不是开放泛化能力。
LLMpost-trainingsupervised learningSFTRLreasoningmeta-learning