#预训练数据能否像人类教育一样组织?Curriculum Learning、数据混合与 Developmental Pretraining 研究脉络

#0. 一句话结论

有现有研究支撑这个方向,但目前证据更支持“软课程 / 动态数据混合 / 高质量教育型数据 / 发展式预训练”,而不是简单地把数据硬排序为“小学 → 初中 → 高中 → 大学”。

你的想法可以放在一个更大的研究问题里:

LLM 预训练是否应该从固定随机混合,走向依据数据难度、概念依赖、模型当前能力和训练阶段动态调度的数据课程?

现有研究给出四类支撑:

  1. 经典 Curriculum Learning 证明“从易到难”可以改善优化路径与泛化,但大多不是 LLM 预训练规模。
  2. NLP/NMT 的 competence-based curriculum 证明基于模型能力增长逐步开放更难数据,能减少训练时间、提升效果。
  3. BabyLM / TinyStories / Textbooks Are All You Need 说明“发展式、儿童式、教材式、高质量合成数据”能显著提高小模型数据效率。
  4. DoReMi / Online Data Mixing / Irreducible Curriculum / Beyond Random Sampling 等工作开始直接研究 LLM 预训练中的数据混合、数据顺序和样本可学习性,说明预训练数据不是只要随机混合就够了。

但也有一个冷静判断:

对现代 LLM 来说,“人类年级”只是一个弱难度信号。真正可研究的是如何把年级、概念依赖、模型 loss、数据质量、结构复杂度、推理深度和下游能力联系起来,形成可扩展的数据调度机制。


#1. 你的想法属于哪条研究线?

你提出的是:

按照人类学习方式组织预训练数据:
一年级 → 二年级 → 三年级 → 小学 → 初中 → 高中 → 大学
用难度递进达到最高效的数据课程学习效果

这在机器学习里对应几个关键词:

  • Curriculum Learning:课程学习,从易到难训练。
  • Self-Paced Learning:自步学习,让模型先学自己当前能学会的样本。
  • Competence-Based Curriculum:基于模型能力增长逐渐开放更难样本。
  • Data Curriculum / Data Ordering:训练数据顺序设计。
  • Data Mixture Optimization:不同数据域采样比例优化。
  • Developmentally Plausible Pretraining:更接近人类儿童输入和发展阶段的预训练。
  • Textbook-quality Data:教材式、高解释性、高密度、低噪声数据。

如果用一句研究化表达,可以写成:

Developmental Curriculum for LLM Pretraining:根据人类教育顺序、概念依赖图、数据结构复杂度和模型当前能力,动态组织预训练数据,以提高样本效率、能力形成质量和跨领域迁移。

这个表述比“按年级排序”更强,因为它允许年级只是一个信号,而不是唯一原则。


#2. 第一阶段:经典 Curriculum Learning——“从易到难”为什么可能有用?

#2.1 Bengio et al. 2009:Curriculum Learning

经典起点通常追溯到 Bengio 等人的 Curriculum Learning。核心思想是:

训练样本的呈现顺序会影响优化过程;从简单样本开始,再逐渐引入复杂样本,可能让模型进入更好的参数区域。

它解决的是传统随机训练的一个问题:

  • 一开始就把所有难样本、噪声样本、长尾样本混在一起,优化信号可能非常混乱;
  • 简单样本可以提供更稳定的梯度,让模型先形成基础表示;
  • 随后逐渐增加难度,可以提升泛化和收敛效率。

这和你说的人类学习顺序非常接近:

先学基本字词和运算
再学复杂句法、方程、函数、证明、专业知识

不过,Bengio 这条线的早期实验主要在较小任务上,不直接等同于 LLM 预训练。它提供的是原则层支撑:数据顺序可能改变学习动态。

#2.2 Self-Paced Learning:从“人给课程”到“模型自己决定难度”

Kumar, Packer & Koller 的 Self-Paced Learning 进一步提出:不是固定一个人类设计的课程,而是让模型从当前容易学的样本开始,再逐步纳入更难样本。

这和你的想法有一个关键差别:

  • 人类年级 curriculum 是外部定义的难度;
  • self-paced curriculum 是模型当前状态定义的难度。

对于 LLM,这一点很重要,因为:

人类觉得难的数据,不一定是模型觉得难;模型 loss 高的数据,也不一定是真正有教学价值,可能只是脏数据。

因此,未来更好的方向可能不是纯人类年级排序,而是:

人类教育难度 + 模型当前 loss/learnability + 数据质量过滤

#3. 第二阶段:NLP/NMT 中的课程学习——“模型能力增长曲线”比硬排序更稳

#3.1 Platanios et al. 2019:Competence-based Curriculum Learning for NMT

NMT 里的代表工作是 Competence-based Curriculum Learning for Neural Machine Translation。它提出一个很有启发的思路:

不要一次性给模型所有训练样本,而是根据训练进度定义模型 competence,逐渐扩大可见数据范围。

直观地说,模型一开始只接触较容易的句子;随着训练推进,模型“能力”提升,再逐渐加入更长、更复杂、更难的句子。

它的重要性在于:

  • 课程不是硬切阶段,而是逐渐扩大数据分布;
  • 难度可以由句长、词频、模型困惑度等定义;
  • 目标不是模拟学校年级,而是匹配模型当前学习能力。

这对 LLM 预训练非常有启发:

不是 0-10% steps 只看小学数据,10-20% steps 只看初中数据;
而是基础数据从高权重开始,复杂数据逐步升权,同时保留混合 replay。

也就是软课程而不是硬课程

#3.2 Multilingual NMT:不同语言也有不同“学习能力阶段”

后续还有 multilingual NMT 的 competence-based curriculum,用模型对不同语言的学习能力来缓解多语言训练中的不平衡问题。这和 LLM 数据混合很像:

  • 不同语言、领域、难度的数据不是同等容易;
  • 固定比例混合可能让模型过早或过度拟合某些数据域;
  • 动态调度可以减少低资源/高难度领域被淹没的问题。

这条线提供了一个重要抽象:

课程学习不只是“样本从易到难”,也可以是“领域、语言、技能、任务的学习节奏控制”。


#4. 第三阶段:BabyLM 与发展式预训练——更接近人类输入是否更高效?

你的想法和 BabyLM 非常接近。BabyLM Challenge 的核心问题是:

儿童可以用少于 1 亿词的输入学会语言,而 LLM 往往需要大几个数量级的数据。能不能用更 developmentally plausible 的数据和训练方式提高样本效率?

#4.1 BabyLM Challenge:少数据、儿童式输入、发展合理性

BabyLM 关注 sample-efficient pretraining,强调用更接近儿童语言输入的数据来训练小模型。2025 年的 BabyLM 总结论文明确把问题放在“developmentally plausible corpora”上:儿童输入远少于 LLM 训练数据,因此需要研究更高效的数据选择与训练方式。

这对你的想法的支撑是:

  • “人类学习顺序/输入分布”不是纯直觉,已经成为一个研究 benchmark;
  • 研究者确实在探索更像人类发展过程的数据组织;
  • 但 BabyLM 主要关注语言获得,不是完整 LLM 预训练,也不是数学/科学/代码年级体系。

#4.2 Lil-Bevo:短序列先于长序列

BabyLM 相关工作 Lil-Bevo 使用了一些更“人类式”的策略,例如:

  • 先训练较短序列,再训练较长序列;
  • 使用音乐数据预训练;
  • 针对特定语法现象设计 mask。

它发现:短序列训练比长序列训练更好一些,但收益有限,说明发展式训练有一定信号,但不是简单套用就一定大幅提升。

这对你的想法是一个很好的提醒:

curriculum 的方向是合理的,但具体 curriculum 设计非常敏感;不是只要像人类就一定更好。

#4.3 Developmentally plausible curriculum 与人类阅读行为对齐

还有工作研究用 developmentally plausible data curriculum 训练语言模型,是否能更好对齐人类阅读行为。它们发现有一些 tentative evidence:先用 BabyLM 数据课程再随机训练,可能让模型更容易获得语法知识。

这类工作说明:

发展式数据顺序可能不仅影响 loss,还可能影响模型内部语言知识获得路径和人类行为对齐。

这和你关心的“能力形成机制”高度相关。


#5. 第四阶段:TinyStories / Textbooks Are All You Need——教材式数据比随机网页更高效

你的想法中有一个隐含假设:人类教育数据之所以有效,不只是因为顺序,还因为它是“教学型”的。

这条线最直接的证据来自 TinyStories 和 phi 系列。

#5.1 TinyStories:儿童词汇与简单故事让小模型也能学会连贯语言

TinyStories 构造了只包含 3-4 岁儿童通常理解词汇的短故事数据。它发现很小的语言模型也能生成相当连贯的英文故事。

这说明一个重要事实:

数据分布如果被限制在合适复杂度、合适概念范围、合适风格上,小模型也能学到看似需要大模型才会出现的能力。

对你的想法而言,这不是“年级排序”的直接证明,但它强烈支持:

  • 数据难度可以被设计;
  • 儿童式/低复杂度数据可以作为基础能力训练场;
  • 高质量、低噪声、概念清晰的数据能提升样本效率。

#5.2 Textbooks Are All You Need / phi-1:教材式代码数据提升小模型代码能力

Textbooks Are All You Need 训练 phi-1,用的是高质量 textbook-like 代码数据和合成练习。1.3B 模型在 HumanEval 和 MBPP 上取得了很强效果。

这个工作对你想法很关键,因为它说明:

对代码模型来说,教材式数据 + 练习题式数据,比随机代码网页更像“有效学习材料”。

这背后的机制可能是:

  • 教材数据解释性强;
  • 概念组织更清楚;
  • 例题和练习构成隐式 curriculum;
  • 合成数据可以覆盖基础概念到复杂组合。

#5.3 phi-1.5:从代码 textbook 到自然语言 reasoning textbook

phi-1.5 继续沿用 textbook-quality data 思路,面向 common sense reasoning 和自然语言能力。它报告 1.3B 模型在自然语言任务上可与更大模型比较,并在 grade-school mathematics 和 basic coding 上表现突出。

这说明“教材式预训练”不是代码领域特例,而可能是小模型高效学习的一般路线。

对你的想法,可以这样理解:

真正有价值的不只是把数据排成小学、初中、高中,而是构造一种“概念清晰、解释充分、例题递进、练习覆盖”的 textbook curriculum。


#6. 第五阶段:数据混合优化——LLM 预训练已经在从固定配比走向动态调度

现代 LLM 预训练通常不是简单把所有数据随机混在一起,而是需要设计 data mixture:网页、书籍、代码、数学、论文、百科、问答、论坛等各占多少比例。

这与 curriculum 的关系是:

  • Data mixture 关注“采多少”;
  • Curriculum 关注“什么时候采、按什么顺序采”;
  • 动态 data mixture 就是 curriculum 的一种现代形式。

#6.1 DoReMi:自动优化数据域比例

DoReMi (Optimizing Data Mixtures Speeds Up Language Model Pretraining) 证明预训练数据域比例显著影响模型表现。它用小 proxy model 通过 Group DRO 学出不同数据域的权重,再用于训练大模型。

关键结果包括:

  • 在 The Pile 上改善多个 domain 的 perplexity;
  • 下游 few-shot 平均准确率比默认配比提升;
  • 达到 baseline 准确率所需训练步数减少,报告约 2.6x fewer training steps。

这对你的想法的意义是:

数据组织不是细枝末节;不同领域数据的采样比例可以显著改变训练效率和最终能力。

但 DoReMi 主要优化的是领域配比,不是人类年级式难度顺序。它支撑的是更广义的结论:预训练数据分布应被优化,而不是默认随机。

#6.2 Online Data Mixing:训练中动态调整数据比例

Efficient Online Data Mixing for Language Model Pre-Training 进一步指出,固定的数据混合比例不能适应训练动态。它用 multi-armed bandit 思路在训练中优化数据混合比例。

这更接近你的想法,因为 curriculum 本质上就是:

training step t 的数据分布 p_t(d) 不应固定

ODM 的结果显示,在线数据混合可以用更少训练完成相同 perplexity,说明动态调度有实际价值。

#6.3 Data Mixing Laws:数据配比可能存在可预测规律

近期关于 data mixing laws 的工作尝试建立不同数据源比例、模型规模、训练 token 和下游能力之间的规律。这类工作虽然不一定直接研究 curriculum,但它们把问题推进到一个更基础层面:

能否像 scaling law 一样,为 data mixture 建立可预测的规律?

如果未来要做“年级式数据课程”,也需要类似规律:

不同难度桶在不同训练阶段的最优比例是什么?
基础数据是否应该递减?
高级数据何时开始升权?
不同模型规模的 curriculum 是否不同?

#7. 第六阶段:直接面向 LLM 预训练的数据顺序与课程研究

最近几年已经开始出现更直接研究 LLM pretraining curriculum 的工作。

#7.1 Irreducible Curriculum for Language Model Pretraining

Irreducible Curriculum for Language Model Pretraining 指出:为大语言模型做自动数据选择和 curriculum 很难,现有方法多集中在 domain-level,忽略单个训练样本的细粒度贡献。

它提出 prioritizing samples with higher learnability:优先选择更“可学习”的样本。为了避免对大模型做昂贵的在线样本选择,它用小 proxy model 模拟主模型训练轨迹上的 sample loss。

这个工作对你的想法非常关键:

它不是用人类年级定义难度,而是用“learnability”定义训练价值。

这给出一个很强的升级方向:

年级难度只是 curriculum 的一个显式先验;
真正的采样权重应结合样本在当前模型阶段的可学习性。

它也提醒我们:

  • 最难样本不一定最好;
  • 最简单样本也不一定最有用;
  • 最有教学价值的可能是模型“刚好能学会”的样本。

这和 Vygotsky 的“最近发展区”很像。

#7.2 Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning

2025 年的 Beyond Random Sampling 更直接研究 LLM 预训练中的 curriculum。根据其公开摘要,它训练了 200+ 个模型、最多 100B tokens,对比 vanilla curriculum、pacing-based sampling、interleaved curricula,并使用六种 difficulty metrics,包括语言学和信息论角度的指标。

其主要结论包括:

  • curriculum learning 在早期和中期训练阶段能稳定提升收敛;
  • 作为 warmup 使用时可能带来持久收益,公开摘要中提到最高约 3.5% improvement;
  • compression ratio、lexical diversity、readability 等难度信号比较有效。

这几乎是对你想法的直接支撑:

数据顺序确实可以影响 LLM 预训练效率;但有效难度信号未必是人类年级,而可能是可压缩性、词汇多样性、可读性等模型相关指标。

#7.3 Curriculum-Guided Layer Scaling

Curriculum-Guided Layer Scaling for Language Model Pretraining 从另一个角度借鉴认知发展:人类随着成长逐渐构建知识,大脑也在发育;模型训练是否也可以逐渐扩展模型结构?

它不只是数据 curriculum,而是把 curriculum 和模型层数增长结合。这个方向说明:

发展式预训练可以同时作用于数据难度、模型容量和训练目标,而不必只在数据排序上做文章。

这对长期方向很有启发:如果你想做 foundation model training mechanism,可以把 curriculum 扩展成:

数据复杂度 schedule
上下文长度 schedule
模型容量 schedule
任务/verifier schedule
工具使用 schedule

#8. 第七阶段:序列组织也是课程——不是只排文档,还要排上下文

你的想法主要关注“数据难度顺序”,但 LLM 预训练还有一个经常被忽略的问题:sequence composition

#8.1 Analysing the Impact of Sequence Composition on LM Pre-Training

这篇工作指出,常见预训练会把多个文档拼接进固定长度序列,然后用 causal masking 预测 token。但这种做法可能让模型在预测一个文档时看到前一个无关文档,形成 distracting information。

它提出 intra-document causal masking,以及 BM25Chunk 这种把相关文档拼在一起的方法,报告能改善 in-context learning、knowledge memorisation 和 context utilisation。

这和你的想法的关系是:

数据组织不只是全局难度排序,也包括局部上下文如何组织。把相关概念、前置材料、例题和练习放在同一个上下文里,可能比随机拼接更像人类学习。

如果做“年级式 LLM 预训练”,不能只控制文档顺序,还要控制:

一个训练 sequence 内部是否概念连贯?
是否先给定义再给例子?
是否先给简单题再给变式题?
是否把相关知识组织在相邻上下文中?

这可能是比全局排序更可操作的方向。


#9. 第八阶段:Instruction Curriculum 与复杂度进化

虽然你的问题是预训练,但后训练中的 curriculum 也提供了很强的旁证。

#9.1 WizardLM / Evol-Instruct

WizardLM 提出 Evol-Instruct:从简单 instruction 出发,逐步重写成更复杂 instruction。它发现复杂 instruction fine-tuning 能显著提升模型 follow complex instructions 的能力。

这说明:

训练数据的复杂度不是静态属性,可以被生成和演化;从简单任务逐步进化到复杂任务,是有效的后训练数据构造方法。

#9.2 WizardCoder

WizardCoder 把 Evol-Instruct 迁移到代码领域,用复杂代码 instruction fine-tuning 强化 Code LLM,在 HumanEval、MBPP、DS-1000 等 benchmark 上取得强表现。

对你的预训练想法而言,Evol-Instruct 提供了一个可借鉴机制:

不是只收集现成小学/初中/大学数据,
而是让模型/规则自动生成“难度递进”的教材、例题、变式题、代码任务。

未来可以做:

Evol-Textbook
Evol-Math-Curriculum
Evol-Code-Curriculum
Evol-Agent-Curriculum

#10. 这些工作对“按年级组织预训练数据”的支持程度

可以把证据分成三层。

#10.1 强支持:数据质量、数据混合、数据顺序确实重要

强证据包括:

  • DoReMi:数据域比例显著影响预训练效率和下游能力;
  • Online Data Mixing:训练中动态调整比例有效;
  • Textbooks Are All You Need:教材式高质量数据对小模型极有效;
  • TinyStories:低复杂度儿童式数据可让小模型学会连贯语言;
  • Beyond Random Sampling:LLM 预训练 curriculum 可改善早中期收敛,并可能带来持久收益。

这说明你的大方向是成立的:

预训练数据不是越随机越好;组织方式、质量、难度和采样节奏都重要。

#10.2 中等支持:人类发展顺序可能有帮助

BabyLM、developmentally plausible curriculum、短序列先训练等工作说明:

  • 更接近人类儿童输入的数据值得研究;
  • 先短后长、先简单后复杂可能有收益;
  • 但效果通常不是压倒性的,且依赖具体设计。

这说明“人类年级顺序”可以作为 hypothesis,但不是已经被大规模证明的 recipe。

#10.3 弱支持 / 待验证:严格“小学 → 初中 → 高中 → 大学”硬排序

目前还缺少强证据证明:

对大规模 LLM 预训练,严格按人类年级硬排序
一定优于随机混合或动态混合

原因包括:

  • 人类年级难度不等于模型难度;
  • LLM 的 next-token prediction 和人类课堂学习不同;
  • 硬切换可能导致 distribution shift;
  • 后期可能遗忘基础数据;
  • 现代预训练通常需要稳定覆盖最终分布。

所以更稳的判断是:

年级式 curriculum 是一个很好的先验,但需要改造成软调度、动态调度和概念图调度。


#11. 技术分类:这个方向可以拆成哪些路线?

路线核心问题代表工作/方向对你的想法的启发
经典 Curriculum从易到难是否改善优化?Bengio 2009数据顺序会影响学习动态
Self-Paced模型应先学当前能学的样本吗?Kumar et al. 2010难度应随模型状态变化
Competence-based如何随训练进度开放更难样本?Platanios 2019用软课程替代硬排序
Developmental LM儿童式输入是否提高样本效率?BabyLM, Lil-Bevo人类发展输入可作为研究基准
Textbook Data教材式数据是否更高效?TinyStories, phi-1/1.5高质量教育数据比随机网页更像“学习材料”
Data Mixture哪些领域该采多少?DoReMi, ODMcurriculum 可以视为时间变化的数据混合
Learnability Curriculum哪些样本在当前阶段最有教学价值?Irreducible Curriculum年级难度应结合可学习性
LLM Pretraining Curriculum预训练中难度排序是否有效?Beyond Random Sampling开始有直接证据支持 LLM 预训练课程学习
Sequence Composition训练上下文内部如何组织?BM25Chunk, intra-document masking学习材料应概念连贯,而非随机拼接
Instruction Complexity后训练任务复杂度如何进化?Evol-Instruct, WizardCoder可自动生成难度递进任务

#12. 对你的想法,最推荐的研究表述

不建议把 proposal 写成:

我们按照小学、初中、高中、大学顺序喂数据。

这太容易被质疑:人类年级不等于模型难度,而且硬排序未必稳定。

更推荐写成:

我们研究 LLM 预训练中的 Developmental Data Curriculum:根据教育体系中的概念先修关系、文本结构复杂度、模型当前可学习性和下游能力需求,动态调度不同难度与领域的数据,使模型先建立基础表示,再逐步学习组合推理、专业知识和工具化能力。

这样就把想法从“人类类比”提升为一个可实验验证的机制问题。


#13. 可以如何设计实验?

#13.1 数据构造

选一个可控领域,比如数学或代码。

数学可以分成:

D1: 小学算术、基础应用题
D2: 初中代数、几何、方程
D3: 高中函数、概率、数列、立体几何
D4: 大学微积分、线代、离散数学
D5: 竞赛数学、证明题、形式化证明

代码可以分成:

C1: 变量、表达式、条件、循环
C2: 函数、数组、字符串、基础数据结构
C3: 算法题、递归、动态规划、图算法
C4: 工程代码、API、测试、debug
C5: repo-level issue、agentic coding trajectory

#13.2 训练组设计

必须控制变量,用同一批数据对比不同顺序:

组别数据顺序
Random Mix全程随机混合
Hard CurriculumD1 → D2 → D3 → D4 → D5
Soft CurriculumD1 高占比起步,D5 逐步升权,始终混合 replay
Anti-CurriculumD5 → D4 → D3 → D2 → D1
Dynamic Curriculum根据 loss / learnability / eval 动态调权
Concept Graph Curriculum按概念依赖开放数据

关键是不要只和“低质量随机网页”比较,否则会把 curriculum 效果和数据质量效果混在一起。

#13.3 评估指标

不能只看 loss。要看能力形成:

训练 loss / validation loss
GSM8K / MATH / OlympiadBench
HumanEval / MBPP / APPS / CodeContests
变量绑定 probe
长程依赖 probe
组合泛化 probe
checkpoint emergence curve
OOD generalization

特别重要的是 checkpoint 曲线:

curriculum 是否让某些能力更早出现?最终是否仍然更强?还是只是 early loss 更快?

#13.4 最有研究价值的观测

可以重点看:

  1. soft curriculum 是否优于 hard curriculum;
  2. dynamic curriculum 是否优于固定年级顺序;
  3. 人类年级难度和模型 loss 难度是否一致;
  4. curriculum 是否提升推理/迁移,而不只是 perplexity;
  5. 基础数据 replay 对防止遗忘是否必要;
  6. 不同模型规模是否需要不同 curriculum。

#14. 我对这个方向的研究判断

这个方向值得做,但不要把它定位成“模仿人类教育”这么简单。更本质的问题是:

数据的时间结构是否是 foundation model 能力形成的一阶变量?

当前 scaling law 主要讨论:

模型参数
训练 token
计算量
数据质量

但对数据“顺序”和“发展结构”关注还不够。你的想法可以切入这个空白:

同样 token,总量不变,顺序和采样节奏改变,能力是否改变?

如果答案是肯定的,它会影响基础模型训练范式:从静态数据配比走向动态课程调度。

我认为最值得探索的是三条线:

#14.1 人类教育先验 + 模型可学习性

不要只按年级,也不要只按 loss,而是二者结合:

difficulty = f(education_level, concept_prerequisite, model_loss, data_quality, structural_complexity)

#14.2 Curriculum for reasoning, not just language modeling

普通文本 loss 可能看不出推理收益。应该重点看:

数学推理
代码推理
工具使用
长程任务
agentic trajectory

这些能力更可能受课程影响。

#14.3 从数据 curriculum 走向环境 curriculum

对 Agent 来说,未来不是简单文本顺序,而是:

单步任务 → 多步任务 → 工具调用 → 调试 → 长程项目 → 自主探索

这和你关心的 agentic RL / self-evolving code agent 很接近。真正的课程可能不是文档 curriculum,而是环境 curriculum。


#15. 最终结论

现有研究总体支持你的大方向:

  1. 课程学习有经典理论和实验基础,从易到难可能改善优化路径。
  2. NLP/NMT 已验证 competence-based curriculum 有效,说明模型能力增长曲线可用于数据调度。
  3. BabyLM/TinyStories/phi 系列支持发展式、儿童式、教材式数据提高样本效率
  4. DoReMi/ODM 等工作说明数据混合比例对 LLM 预训练非常关键,而且可以自动优化
  5. Irreducible Curriculum 和 Beyond Random Sampling 已经开始直接研究 LLM 预训练 curriculum,支持数据顺序和难度信号确实会影响预训练效率。

但现有研究也提醒我们:

简单硬排“小学 → 初中 → 高中 → 大学”不是最稳的方案。更有前途的是 soft curriculum、dynamic data mixing、concept prerequisite graph、learnability-based sampling 和 textbook-quality data 的结合。

如果用一句话概括这个研究方向:

未来 LLM 预训练可能不只是 scaling data quantity,而是 scaling data pedagogy:让数据像教材、课程和环境一样被组织,使模型按更高效的路径形成基础表示、组合推理和专业能力。


#参考与延伸阅读

  • Bengio et al., Curriculum Learning, 2009.
  • Kumar, Packer, Koller, Self-Paced Learning for Latent Variable Models, 2010.
  • Graves et al., Automated Curriculum Learning for Neural Networks, 2017.
  • Platanios et al., Competence-based Curriculum Learning for Neural Machine Translation, 2019.
  • Warstadt et al. / BabyLM Challenge, Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora, 2025.
  • Govindarajan et al., Lil-Bevo: Explorations of Strategies for Training Language Models in More Humanlike Ways, 2023.
  • Eldan & Li, TinyStories: How Small Can Language Models Be and Still Speak Coherent English?, 2023.
  • Gunasekar et al., Textbooks Are All You Need, 2023.
  • Li et al., Textbooks Are All You Need II: phi-1.5 technical report, 2023.
  • Xie et al., DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, 2023.
  • Albalak et al., Efficient Online Data Mixing For Language Model Pre-Training, 2023.
  • Fan & Jaggi, Irreducible Curriculum for Language Model Pretraining, 2023.
  • Zhao et al., Analysing The Impact of Sequence Composition on Language Model Pre-Training, 2024.
  • Xu et al., WizardLM: Empowering Large Pre-trained Language Models to Follow Complex Instructions, 2023.
  • Luo et al., WizardCoder: Empowering Code Large Language Models with Evol-Instruct, 2023.
  • Zhang et al., Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning, 2025.
  • Zhang et al., Curriculum-Guided Layer Scaling for Language Model Pretraining, 2025.