Tag Archive

标签：reasoning model

这里整理所有带有「reasoning model」标签的文章，方便按主题快速回看。

reasoning model

共 2 篇

主题归档 · 2026-06-15

Think / Reasoning 模型的 SFT：和传统指令微调有什么不同？

系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异，分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作，并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。

LLM reasoning model think model SFT long-CoT RLVR distillation

论文精读 · 2026-06-08

MiMo-7B 训练过程详解：一个 7B 推理模型是怎样从预训练到 RL 被“养出来”的

详细拆解小米 MiMo-7B 技术报告中的训练流程：推理导向预训练、MTP 架构、SFT 冷启动、可验证数学/代码 RL、test-difficulty reward、dynamic sampling 与 Seamless Rollout Engine。

MiMo-7B reasoning model pretraining reinforcement learning GRPO code RL