Tag Archive
标签:mid-training
这里整理所有带有「mid-training」标签的文章,方便按主题快速回看。
首页
每日调研
论文精读
主题归档
实验分析
复现指南
mid-training
共 2 篇
论文精读 · 2026-06-21
"ExpRL:把参考答案从 SFT 样本变成 RL 探索脚手架"
"详解 arXiv 2606.17024:ExpRL 如何用参考解答构造 dense reward,解决稀疏奖励 RL 在硬题上的探索覆盖不足问题。"
reinforcement-learning
llm-reasoning
mid-training
expRL
GRPO
agentic-rl
主题归档 · 2026-05-06
大模型预训练与 Mid-training 数据的差距:阶段定位、数据配方与准备方法
系统梳理大模型训练中 pretraining 与 mid-training 的定位差异:预训练数据负责建立通用语言、知识与表征底座,mid-training 数据则作为从通用预训练分布到后训练目标分布的桥梁,面向数学、代码、QA、长上下文、指令与推理等能力做高质量、低比例、强评估闭环的阶段性注入。
LLM
pretraining
mid-training
data curation
post-training
foundation model
OLMo
Llama