Tag Archive

标签：RL

这里整理所有带有「RL」标签的文章，方便按主题快速回看。

RL

共 1 篇

论文精读 · 2026-06-10

Post-training is (Massive) Supervised Learning：后训练正在把 LLM 带回“大规模监督学习”吗？

这篇 position paper 认为，当前 LLM 的大规模后训练正在把评测分布变成训练分布；即使从随机初始化开始，只靠数学/代码 SFT 数据也能在对应 benchmark 上取得不低成绩，因此很多“推理能力”可能首先是分布拟合能力，而不是开放泛化能力。

LLM post-training supervised learning SFT RL reasoning meta-learning