Tag Archive

标签:mid-training

这里整理所有带有「mid-training」标签的文章,方便按主题快速回看。

mid-training

共 2 篇
论文精读 · 2026-06-21

"ExpRL:把参考答案从 SFT 样本变成 RL 探索脚手架"

"详解 arXiv 2606.17024:ExpRL 如何用参考解答构造 dense reward,解决稀疏奖励 RL 在硬题上的探索覆盖不足问题。"
reinforcement-learningllm-reasoningmid-trainingexpRLGRPOagentic-rl
主题归档 · 2026-05-06

大模型预训练与 Mid-training 数据的差距:阶段定位、数据配方与准备方法

系统梳理大模型训练中 pretraining 与 mid-training 的定位差异:预训练数据负责建立通用语言、知识与表征底座,mid-training 数据则作为从通用预训练分布到后训练目标分布的桥梁,面向数学、代码、QA、长上下文、指令与推理等能力做高质量、低比例、强评估闭环的阶段性注入。
LLMpretrainingmid-trainingdata curationpost-trainingfoundation modelOLMoLlama