Tag Archive

标签：mid-training

这里整理所有带有「mid-training」标签的文章，方便按主题快速回看。

mid-training

共 2 篇

论文精读 · 2026-06-21

"ExpRL：把参考答案从 SFT 样本变成 RL 探索脚手架"

"详解 arXiv 2606.17024：ExpRL 如何用参考解答构造 dense reward，解决稀疏奖励 RL 在硬题上的探索覆盖不足问题。"

reinforcement-learning llm-reasoning mid-training expRL GRPO agentic-rl

主题归档 · 2026-05-06

大模型预训练与 Mid-training 数据的差距：阶段定位、数据配方与准备方法

系统梳理大模型训练中 pretraining 与 mid-training 的定位差异：预训练数据负责建立通用语言、知识与表征底座，mid-training 数据则作为从通用预训练分布到后训练目标分布的桥梁，面向数学、代码、QA、长上下文、指令与推理等能力做高质量、低比例、强评估闭环的阶段性注入。

LLM pretraining mid-training data curation post-training foundation model OLMo Llama