#WAM(World Action Model)发展脉络综述:从世界模型到 VLA,再到统一生成与决策

#先给结论:WAM 不是“又一个机器人大模型”,而是试图把“世界如何变化”和“动作如何导致变化”一起建模

如果把这条线压缩成一句话,可以这样说:

传统 world model 主要回答“世界接下来会怎样”,VLA 主要回答“现在该输出什么动作”,而 WAM 想同时回答“如果我这样做,世界会怎样变化,以及我应该因此怎么做”。

所以 WAM(World Action Model)不是凭空冒出来的新名词,它本质上是三条技术路线汇合后的结果:

  1. 经典世界模型路线:从 latent dynamics、Dreamer 一直到视频世界模型,核心目标是学会预测未来。
  2. VLA 路线:从 RT-2、OpenVLA、π0/π0.5 等,核心目标是把互联网语义知识迁移进机器人动作生成。
  3. 大规模视频/多模态基础模型路线:从 Genie、GAIA-1、Cosmos、V-JEPA 2、Magma 等,核心目标是学到更开放、更可扩展、更接近真实世界的时空表示与交互先验。

WAM 之所以重要,不是因为它给这几条线起了个新名字,而是因为它抓住了这几条线的共同症结:

只会“直接出动作”的模型,往往不真正理解动作对未来世界的影响;只会“预测未来视频”的模型,又往往不直接服务于闭环控制。

WAM 试图把这两个问题合成一个:

  • 让模型既预测未来世界,
  • 又预测导致这个未来的动作,
  • 并把这种联合建模变成规划、控制和泛化的基础。

但也正因为如此,WAM 不是“自然比 VLA 强”的简单替代。它只是把问题从“动作怎么出”升级成了“动作—状态转移—未来观测怎么统一建模”。问题更大了,潜力也更大了。

下面我按历史脉络展开。


#一、WAM 的真正前史,不是从 2025 才开始,而是从“控制要不要显式建模未来”这个老问题开始

如果从概念上追溯,WAM 的祖先其实不是 VLA,而是更早的 model-based RL / world model 思想。

#1.1 经典世界模型要解决什么问题

在早期强化学习和机器人学习里,主流方法长期分成两派:

  • Model-free policy:直接从观测到动作,优点是简单,缺点是样本效率低、推理短视。
  • Model-based 方法:先学环境动力学,再利用模型做规划,优点是更有前瞻性,缺点是模型误差会累积。

经典世界模型路线的核心问题一直是:

如果智能体要做长时程决策,能不能先在内部“想象未来”,再决定动作?

这条线的代表不是今天意义上的 foundation model,而是 latent dynamics model、PlaNet、Dreamer 系列这类工作。它们的重要性在于第一次比较系统地说明:

  • 不必只学 policy;
  • 可以学一个压缩后的 latent world;
  • 再在 latent 里 rollout、评估、规划。

#1.2 这条路线解决了什么旧问题

相对 model-free,world model 路线解决了两个关键痛点:

  1. 样本效率问题:可以在学到的世界里反复“想象”,减少真实环境交互开销。
  2. 长时程前瞻性问题:动作不再只看当前,而是要看其对未来状态的影响。

也就是说,world model 解决的不是“机器人懂不懂语义”,而是:

控制是否能从“反射式响应”升级成“基于未来后果的决策”。

#1.3 它没有解决什么问题

但经典 world model 也有几个明显局限:

  • 多在低维控制或较封闭环境中有效;
  • 对开放世界语义几乎没有吸收能力;
  • 很难直接处理自然语言指令;
  • 很难在真实复杂视觉世界里学出稳定可用的长时程模型。

所以在这一阶段,问题变成了:

我们有“会预测未来”的模型了,但它不懂开放世界;我们需要一个既能理解语义、又能控制机器人、又最好能想象未来的框架。

这就为后来的 VLA 和大规模视频世界模型分别埋下了伏笔。


#二、第一条汇合支线:VLA 路线解决了“动作生成的语义贫困”,但没有真正解决“未来后果建模”

#2.1 RT-2:VLA 路线的标志性起点

代表工作: RT-2(2023)

RT-2 的关键突破在于:

把视觉语言模型直接接到机器人控制里,并把动作表示成 token,让“动作生成”进入大模型 next-token 范式。

它相对 RT-1 / 传统 generalist policy 的进步,不只是模型更大,而是范式变了:

  • 机器人不再只从机器人数据里学;
  • 而是把互联网视觉语言知识迁进控制;
  • 机器人策略第一次显著表现出开放词汇语义泛化与初步推理能力。

#2.2 RT-2 解决了前一代什么问题

相对经典通用策略,RT-2 真正解决的是:

  1. 语义泛化不足:过去策略只能在训练分布内做动作模板匹配;RT-2 可以借助 web-scale 预训练理解更开放的语义约束。
  2. 语言接口太弱:过去语言更多像标签;RT-2 把语言变成了控制的核心条件变量。
  3. 机器人与大模型生态脱节:RT-2 让机器人控制与 token-based foundation model 技术栈初步对齐。

#2.3 RT-2 留下了什么新问题

但 RT-2 的核心局限也非常清楚:

  1. 动作 token 化不自然:连续控制被硬塞进离散 token 范式,本体上就有失真。
  2. 控制频率受自回归约束:next-token 解码天然慢,对闭环控制不友好。
  3. 仍然偏“短视”:模型会输出动作,但没有显式建模“这个动作如何改变未来世界”。
  4. 更像条件映射而非真正规划:语义变强了,不等于物理可行性、长时程稳健性也自动变强。

所以 RT-2 的贡献,是把“懂语义的动作生成”推到了台前;而它的缺点也把后来的问题暴露得非常清楚:

一个会说话、会识物的策略,并不 automatically 是一个会想未来的策略。


#三、VLA 的工程成熟期:OpenVLA、CogACT、π0/π0.5 在修动作生成,但仍未跳出“直接产动作”框架

#3.1 OpenVLA:把 VLA 从“概念验证”推向开源可复现

代表工作: OpenVLA(2024)

OpenVLA 的历史作用很重要。它解决的不是 RT-2 的哲学问题,而是工程与生态问题:

  • RT-2 一类系统偏闭源、复现实用门槛高;
  • 社区需要开源的 VLA 基线;
  • 需要验证小得多的模型是否能取得接近甚至更好的控制效果。

OpenVLA 解决了什么?

  1. 可获得性问题:让 VLA 从“看得见论文、摸不到系统”变成可训练、可微调、可部署。
  2. 参数与性能效率问题:用远小于 RT-2-X 的规模取得强性能,说明 VLA 不必一味靠巨大参数量。
  3. 下游适配问题:强调高效微调与开源数据管线,推动 VLA 成为研究平台而不只是 showcase。

但 OpenVLA 没有从根本上改变 VLA 的结构矛盾:

  • 它仍然主要是从观测和指令直接出动作;
  • 它改善了可用性,没有根除前瞻性不足;
  • 它把 VLA 做得更现实,却也更清楚地暴露出 VLA 的能力边界。

#3.2 CogACT:开始正面处理“直接 token 化动作性能不够”的问题

代表工作: CogACT(2024)

CogACT 明确指出一件事:

把 VLM 直接拿来量化动作并不够,动作这件事需要专门的建模头。

它相对 OpenVLA 之前方法解决了什么?

  1. 动作建模能力不足:把 action module 从 VLM 主干中“组件化”出来。
  2. 连续动作表达能力差:引入 diffusion action transformer,让动作分布建模比离散 token 更自然。
  3. 控制表现弱于语义能力:它试图让“认知”与“动作”分别建模,再在条件关系上耦合,而不是让语言模型自己硬扛一切。

这一步非常关键,因为它已经在隐含地承认:

纯粹把动作看成 token 可能不是最优范式,动作的随机性、连续性、时序相关性需要不同于文本 token 的建模机制。

但 CogACT 仍然没有真正跨到 WAM:

  • 它优化的是“如何更好地产动作”;
  • 不是“如何联合建模动作与世界演化”;
  • 它增强的是 policy head,而不是显式 future world reasoning。

#3.3 π0 / π0.5:VLA 进一步走向开放世界泛化与长时程真实任务

代表工作: π0、π0.5(尤其 π0.5,2025)

π0.5 的意义在于它不再满足于实验室台面任务,而是试图回答:

VLA 到底能不能在真实家庭、真实新场景、长时程任务里工作?

它相对前一代方法解决了什么?

  1. 训练分布过窄:通过 heterogeneous co-training,联合多机器人、多任务、多模态监督。
  2. 开放环境泛化不足:引入 web data、高层语义预测、hybrid multimodal examples,扩大知识迁移面。
  3. 长时程任务能力弱:开始真正展示 cleaning、home setting 这类更像“真实世界服务机器人”的任务。

π0.5 提醒大家:VLA 确实可以继续扩、继续泛化,甚至向 real-world deploy 靠近。

但它也进一步放大了 VLA 的根本矛盾:

  • 任务越开放,越需要强物理先验与时空后果建模;
  • 任务越长程,越需要显式规划和 credit assignment;
  • 任务越真实,越不能只靠“当前观测 → 下一段动作”的局部映射。

也就是说,VLA 在不断补强,但它越成功,就越逼近自己的边界:

当任务从“看懂并抓取”走向“在开放世界里持续操作”时,仅仅更强的动作生成并不够。

这就是 WAM 动机的第一大来源。


#四、第二条汇合支线:大规模世界模型开始逼近真实视觉世界,但长期不直接服务于动作决策

如果说 VLA 这条线解决的是“语义和动作怎么接起来”,那么另一条线解决的是“复杂真实世界到底能不能被大模型稳定建模”。

#4.1 GAIA-1:把 world model 带到真实自动驾驶场景

代表工作: GAIA-1(2023)

GAIA-1 的贡献不是语言理解,而是:

把视频、文本、动作联合输入一个生成式世界模型,用来生成可控的驾驶未来。

它相对传统模拟器 / 封闭 world model 解决了什么?

  1. 世界模型离真实场景太远:从真实自动驾驶数据出发,而不是只在游戏或简化环境里建模。
  2. 未来预测缺少可控性:让动作和文本进入生成条件,使生成未来不只是被动预测,而是可控 rollout。
  3. 视觉世界复杂度不足:在复杂街景中验证生成式世界模型的可行性。

GAIA-1 的意义在今天回看非常重要,因为它已经包含 WAM 的雏形:

  • 有世界建模;
  • 有动作条件;
  • 有未来生成;
  • 但目标主要还是 simulation / generation,而不是统一 policy learning。

它的新问题是:

  • 模型可以生成未来,但生成得好不等于适合闭环控制;
  • 生成目标仍偏视觉 realism,而不是 action-value usefulness;
  • 自动驾驶场景虽然复杂,但其 action space 与 embodied manipulation 仍有差异。

#4.2 DriveDreamer:从真实驾驶 world model 走向更结构化的生成控制

代表工作: DriveDreamer(2023)

DriveDreamer 相对 GAIA-1 更强调真实驾驶世界的结构信息建模。它要解决的是:

  1. 纯视频生成难以稳定表达交通语义
  2. 复杂驾驶场景需要对象、地图、布局等更结构化的中间表示
  3. world model 不应只是画面补全器,而应成为 driving policy 的支撑。

所以 DriveDreamer 这类工作在本质上把一个新认识推到了台前:

如果世界模型真的要服务决策,它不能只会生成“像视频”,还得保留对几何、语义、交互结构的可操作表示。

这对后来的 WAM 非常关键。因为 WAM 不是要把视觉未来画得更美,而是要让未来表示对行动有用。

#4.3 DriveDreamer-2:把 LLM 接进 world model,可控性增强,但“语言—世界—动作”仍未完全统一

代表工作: DriveDreamer-2(2024)

DriveDreamer-2 解决的是 DriveDreamer 的另一个瓶颈:

  • world model 能生成未来,
  • 但用户怎样用自然语言指定“我想要什么未来”?

于是它把 LLM 接进来,用 query → trajectory → HDMap → multi-view generation 的链路提升可控性。

它相对前作解决了什么?

  1. 自定义生成能力不足:用户可以更明确地控制期望场景。
  2. 语言与世界模型割裂:用 LLM 作为接口,把自然语言愿望转成时空结构约束。
  3. 多视角一致性不足:强化 spatial-temporal coherence。

但它依然没有完成 WAM 意义上的统一:

  • 语言主要作为条件接口;
  • 动作与未来仍有 pipeline 式拆分;
  • 更像“可控世界生成系统”,而不是“闭环世界—动作联合决策系统”。

不过到这里,第二条支线已经很清楚了:

世界模型一侧正在越来越强地学习真实时空演化、可控生成和结构化表示,但它还没有自然地变成政策。


#五、第三条汇合支线:视频基础模型与自监督视频表征让“从海量视频学世界”变得现实

#5.1 Genie:提出“交互式生成环境”的概念

代表工作: Genie(2024)

Genie 的历史意义非常大,因为它第一次鲜明地提出:

互联网视频不只是拿来做视频生成,也可以拿来学“可交互的环境”。

它解决了什么问题?

  1. 动作标签昂贵:从无标注视频中学习 latent action model。
  2. world model 数据稀缺:不再强依赖带动作标注的机器人/游戏数据。
  3. 交互环境生成门槛高:把“生成视频”推进到“生成可操控世界”。

Genie 的关键突破不在于它马上能控制真实机器人,而在于它给出一个更大胆的命题:

  • 世界模型可以从海量自然视频中长出来;
  • 动作可以先作为 latent interaction variable 被学到;
  • controllability 不一定要完全依赖人工动作标签。

它带来的新问题也很清楚:

  • latent action 未必对应真实可执行动作;
  • 生成环境的可交互性与物理真实性之间还有很大差距;
  • 从虚拟交互环境到现实闭环控制还有 domain gap。

但 Genie 把一件事坐实了:

如果要做通用世界—动作联合建模,海量视频是不能绕开的。

#5.2 Cosmos:把“world foundation model”明确提出来

代表工作: Cosmos World Foundation Model Platform(2025)

Cosmos 的贡献,是把原本分散的 world model 研究上升到平台和基础模型层面。它要解决的是:

  1. 世界模型缺少标准化基础设施:数据清洗、tokenizer、预训练模型、后训练路径都不统一。
  2. 不同 physical AI 场景都要从零建 world model:需要可微调的通用 world foundation model。
  3. world model 只停留在论文 demo:要走向产业级平台化。

Cosmos 相对 Genie / DriveDreamer 进一步推进了两个判断:

  • world model 不是单一任务模型,而是基础设施;
  • future physical AI 很可能需要先有“世界基础模型”,再有特定 policy。

但 Cosmos 仍以平台和世界建模为重心,并未天然等于 WAM:

  • 它强调 world foundation model,
  • 却未必把 action learning 作为一等公民统一进去;
  • 它让“世界建模很重要”这件事变得无可回避,但没直接解决“怎么从世界模型中得到强策略”。

#5.3 V-JEPA 2:从 action-free video pretraining 走向 understanding、prediction、planning

代表工作: V-JEPA 2(2025)

V-JEPA 2 很关键,因为它把另一个思想推到了台前:

世界建模不一定非要靠 pixel reconstruction,也可以通过更抽象的 predictive representation 来服务理解、预测和规划。

它相对视频生成世界模型解决了什么?

  1. pixel-level 预测成本高、细节冗余重:转向更抽象、更高层的 predictive latent / embedding。
  2. 只会生成,不一定会理解:强调 motion understanding、anticipation、planning 支持。
  3. world model 和 policy 数据割裂:通过少量 interaction data 对接行动能力。

这对 WAM 的启发特别大,因为它说明:

  • WAM 不必执着于像素重建;
  • 更抽象、行动相关的 latent prediction 也可能更适合控制;
  • “什么样的世界表示最适合决策”本身是核心问题。

也正因为此,后来的 WAM 形成了两条分歧:

  1. 显式视频/图像未来生成型 WAM
  2. latent / geometry / structure-grounded WAM

#六、在 WAM 形成之前,社区已经隐约看到一个断裂:VLA 会语义,World Model 会未来,但两边都不完整

到了 2024-2025,问题逐渐非常清晰:

#6.1 只做 VLA 的问题

VLA 系统越来越会:

  • 理解语言;
  • 对齐互联网语义;
  • 生成灵活动作;
  • 在开放环境中做初步泛化。

但它们仍然缺:

  • 明确的未来状态预测;
  • 对长时程后果的内部模拟;
  • 更强的物理迁移能力;
  • 在 novel motion / novel dynamics 上的外推性。

#6.2 只做 world model 的问题

世界模型越来越会:

  • 生成未来视频;
  • 学习时空动态;
  • 吸收海量视频先验;
  • 在 latent 中做预测和 planning。

但它们仍然缺:

  • 语言指令跟随能力;
  • 与动作控制的直接闭环耦合;
  • 在真实机器人任务中的 policy usefulness;
  • “如何把生成未来转成正确行动”的统一接口。

于是一个几乎必然的新问题出现了:

能不能有一种模型,不把“看未来”和“出动作”拆成两套系统,而是直接学“动作驱动的世界演化”?

这就是 WAM 概念真正出现的土壤。


#七、WAM 的提出:关键不在名字,而在建模对象从“动作”升级成“动作导致的未来”

先给 WAM 一个最简洁的定义:

WAM(World Action Model)是联合建模未来世界状态/观测与导致该变化的动作的模型;它把 action learning 和 world modeling 统一到同一个生成或预测框架中。

和 VLA 相比,WAM 关注点从:

  • “给定当前观测和指令,下一步该输出什么动作”

变成:

  • “给定当前世界、指令和潜在动作,未来会演化成什么;哪些动作会把世界带到更想要的未来”。

和传统 world model 相比,WAM 又多了:

  • 动作不是辅助条件,而是联合建模对象;
  • 学到的世界表示必须对 policy 直接有用;
  • 目标不只是 simulation realism,而是闭环决策效果。

所以 WAM 的关键,不是“加了 action token”这么简单,而是目标函数和表示学习目标变了:

模型被迫学习 action-relevant world representation,而不是只学和视觉重建有关的 representation。


#八、WAM 的早期代表工作:从 task-specific 到 generalist,再到几何 grounding

#8.1 DyWA:WAM 思想在具体操纵子问题中的早期体现

代表工作: DyWA(Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation, 2025)

DyWA 很有代表性,因为它不是先从最宏大的 foundation model 场景切入,而是从一个非常具体但很难的任务出发:非抓取操纵

这里传统方法的问题特别尖锐:

  • 接触动力学复杂;
  • 物体质量、摩擦等变化显著影响结果;
  • 单纯 imitation 往往学到脆弱相关性;
  • 多视角和精确跟踪依赖很重。

DyWA 相对之前方法解决了什么?

  1. 对物理变化不敏感:通过历史轨迹适配 dynamics variation,而不是只看当前帧。
  2. 几何—状态—物理—动作分离得太碎:把它们统一进一个 dynamics-adaptive world-action learning 框架。
  3. 强依赖精细传感和标注:试图降低对多视角与精准 tracking 的依赖。

它的重要性在于它非常清楚地说明:

当任务难点主要来自物理变化而非语义时,联合建模“未来状态 + 动作”会比纯 policy imitation 更自然。

但 DyWA 还不是通用 foundation-style WAM:

  • 任务范围较窄;
  • 更偏 specific manipulation setting;
  • 并未真正解决开放世界语义与大规模多任务泛化。

不过它为 WAM 提供了一个关键论据:

WAM 不是只对“看起来像智能体的大模型”有用,它在物理鲁棒性问题上也有直接价值。

#8.2 DreamZero:明确提出“World Action Models are Zero-shot Policies”

代表工作: DreamZero(2026)

DreamZero 是当前 WAM 叙事里非常关键的代表,因为它直接把一个强论断摆上台面:

WAM 本身就可以是一种 zero-shot policy。

它相对 VLA 的关键批评非常明确:

  • VLA 擅长语义泛化;
  • 但在 novel physical motion、novel environment 下泛化不足;
  • 原因是它并没有真正学到动作如何驱动世界变化。

DreamZero 解决了什么?

  1. 异构机器人数据利用效率不足:通过联合建模视频和动作,用视频作为 dense world evolution signal,提高 heterogeneous data 学习效率。
  2. VLA 对重复示范依赖强:WAM 可以从更丰富的状态转移统计中学技能,而不仅靠模板动作复现。
  3. zero-shot physical generalization 差:在新任务和新环境上展示对 VLAs 的显著优势。
  4. 大视频模型闭环控制频率不足:通过系统与模型优化,把大规模视频 diffusion WAM 推到 7Hz 实时闭环控制。

DreamZero 特别重要的一点在于它重新解释了“policy 是什么”:

  • policy 不再只是直接输出 action 的函数;
  • policy 可以是一个会 jointly imagine world-and-action 的生成模型;
  • closed-loop control 则是在这个联合模型上不断条件化、滚动执行。

但 DreamZero 也把 WAM 的新问题彻底暴露出来:

  1. 计算代价极高:视频扩散骨干做实时控制仍然昂贵。
  2. 控制频率和延迟依旧是硬约束:7Hz 已很亮眼,但距离很多高带宽控制任务仍有限。
  3. 视频未来是否是最优行动表征:高维观测包含大量和控制无关的信息。
  4. 训练目标与控制目标仍未完全一致:会预测未来,不等于未来就对规划最有用。

也就是说,DreamZero 证明了 WAM 的潜力,但也让人开始认真追问:

WAM 应该学视频未来、latent future、还是更结构化的 future?

#8.3 DriveDreamer-Policy:从 2D/latent WAM 走向几何 grounding

代表工作: DriveDreamer-Policy(2026)

DriveDreamer-Policy 的开篇就很明确:

  • WAM 正在成为连接 VLA 与 world model 的桥梁;
  • 但已有方法往往偏 2D appearance 或 latent 表示;
  • 对 embodied decision 来说,几何 grounding 不够是大问题。

这篇工作相对前一代 WAM 解决了什么?

  1. 缺少几何约束:引入 depth generation,使未来建模不只是像素外观的延续。
  2. 世界生成与动作规划割裂:把 depth generation、future video generation、motion planning 做统一模块化集成。
  3. 语言—视觉—动作对齐不够结构化:让 LLM 接收多视角视觉和导航目标,再输出更几何一致的决策。

它的重要性在于把 WAM 的内部路线分歧进一步说清了:

不是所有 WAM 都该只在图像空间里想未来;很多物理任务更需要几何、结构、可测量的中间表征。

但它也带来新问题:

  • 几何 grounding 提升了物理一致性,却增加了系统复杂度;
  • 模块更多,端到端统一训练更难;
  • 在 driving 中有效的几何结构,不一定直接迁移到通用机器人操纵。

不过到这里,WAM 至少已经从概念上长成了三个方向:

  1. 视频生成型 WAM:强调 dense future imagination;
  2. latent / predictive representation 型 WAM:强调抽象、效率和 planning-friendliness;
  3. geometry-grounded WAM:强调物理结构与可执行性。

#九、一个重要过渡带:有些工作虽然不直接叫 WAM,但本质上已经在向 WAM 靠拢

WAM 的命名是后来的,但很多 2024-2025 的工作已经在做“VLA + world knowledge / prediction”的混合。

#9.1 DreamVLA:把 world knowledge forecasting 接进 VLA

代表工作: DreamVLA(2025)

DreamVLA 非常值得重视,因为它恰好处在 VLA 和 WAM 之间的过渡地带。

它相对传统 VLA 的出发点是:

  • 单靠图像条件 + 动作输出,泛化与 reasoning 不够;
  • 仅做 image-based forecasting 又有冗余信息、关键 world knowledge 不充分的问题;
  • 机器人决策更需要 dynamic、spatial、semantic 三类信息的联合预测。

DreamVLA 解决了什么?

  1. VLA 缺少显式未来知识:引入 world knowledge forecasting,建立 perception-prediction-action loop。
  2. 像素未来冗余太高:不只看原始未来图像,而是预测动态、空间、语义等更紧凑的知识表示。
  3. 训练中不同信息互相干扰:用 block-wise structured attention 尝试解耦多类 world knowledge。

这类工作为什么重要?

因为它说明领域并不是简单从“纯 VLA”突然跳到“纯 WAM”,而是在出现一系列折中尝试:

先给 VLA 加未来知识,再看是否有必要把 policy 和 world model 完全统一。

DreamVLA 带来的新问题也很有代表性:

  • 预测哪些 knowledge 才真正对控制有用?
  • 多种预测目标如何避免互相污染?
  • 是在 VLA 外围加预测头,还是把整个系统重写成 WAM,更优?

#9.2 Magma:面向数字世界和物理世界的多模态 agent foundation model

代表工作: Magma(2025)

Magma 不一定严格属于 WAM,但它很关键,因为它代表了另一条强趋势:

agent foundation model 正在同时覆盖 GUI、数字世界和机器人世界,动作不再局限于机械臂控制。

Magma 相对普通 VLM 的提升在于:

  1. 只有 verbal intelligence,没有 actionable intelligence:通过 SoM / ToM 等标注让模型学会可操作对象和动作轨迹。
  2. 数字世界和物理世界割裂:试图用统一多模态 agent 框架服务 UI 与机器人任务。
  3. 动作 grounding 太弱:让行动对象和时空轨迹显式进入训练。

它没有直接等于 WAM,但它告诉我们:

  • WAM 未来未必只属于机器人;
  • 只要任务是“观察—行动—世界变化”,统一 world-action modeling 都有可能成为通用 agent 范式;
  • 数字世界 agent、自动驾驶 agent、机械臂 agent 之间的方法边界正在变薄。

#十、到今天为止,WAM 真正比 VLA 多了什么

这是最值得单独回答的问题。

#10.1 WAM 多出的不是“语言能力”,而是 action-relevant future modeling

VLA 的强项是:

  • 语言跟随;
  • 开放词汇语义;
  • web knowledge transfer;
  • 统一大模型接口。

WAM 额外多出的核心,是:

  • 学“未来如何因动作而变化”;
  • 学 action-conditioned world transition;
  • 让 policy 学习不再只盯着监督动作,而盯着动作带来的未来结果。

换句话说:

VLA 更像“语义增强的直接策略”,WAM 更像“带可想象未来的生成式策略”。

#10.2 WAM 更适合解决哪些问题

截至今天,WAM 最有希望比 VLA 更占优的场景是:

  1. 需要强物理泛化的任务:环境动力学改变、物体属性改变、接触模式改变。
  2. 长时程任务:动作后果延迟出现,不能只盯局部 imitation。
  3. 异构数据融合:视频、机器人轨迹、仿真 rollout、弱动作数据混合利用。
  4. zero-shot / low-shot transfer:因为模型不是只背动作模板,而是在学转移规律。

#10.3 但 WAM 也不是免费午餐

WAM 把问题做大后,新的困难同样集中爆发:

  1. 训练与推理成本高:尤其是视频生成型 WAM。
  2. 表示选择困难:像素、latent、geometry、semantic structure,到底哪个最适合控制?
  3. 目标错位风险:生成得真实,不等于对动作选择最有帮助。
  4. 闭环控制频率压力:大模型想象未来很慢,而控制往往要求毫秒到数十毫秒级响应。
  5. 评测体系不成熟:WAM 到底该看视频质量、未来预测误差、任务成功率,还是 zero-shot transfer?目前并无统一标准。

#十一、如果把 WAM 的发展脉络串成一条逻辑链,最核心的演化关系是什么

我把这条线压缩成下面这个最关键的逻辑链:

#阶段 1:经典世界模型

想解决的问题: policy 太短视,能不能先想未来再行动?

解决了什么: 引入 latent dynamics、planning、imagined rollouts。

留下的新问题: 不懂开放世界语义,难处理真实复杂视觉场景。

#阶段 2:VLA(RT-2 → OpenVLA → CogACT → π0.5)

想解决的问题: 机器人策略不懂开放语义,能不能把 VLM/LLM 知识迁进动作控制?

解决了什么: 语义泛化、语言跟随、web knowledge transfer、generalist policy 生态化。

留下的新问题: 动作 token 化别扭、长时程前瞻性弱、物理泛化有限、本质仍偏直接策略。

#阶段 3:大规模视频/世界基础模型(GAIA-1 → DriveDreamer → Genie → Cosmos → V-JEPA 2)

想解决的问题: 复杂真实世界能不能被大模型学成一个可预测、可交互的时空系统?

解决了什么: 海量视频预训练、真实场景未来建模、可控 world generation、抽象 predictive representation。

留下的新问题: 会生成未来,不等于能闭环决策;语言与动作还未真正统一。

#阶段 4:WAM(DyWA → DreamVLA 过渡 → DreamZero → DriveDreamer-Policy)

想解决的问题: 能否把动作学习与世界演化统一起来,让模型既会想未来,又能据此控制?

解决了什么: action-relevant world modeling、物理泛化增强、zero-shot policy 潜力、生成与规划更深耦合。

留下的新问题: 计算代价、表示选择、控制频率、评测标准、世界建模目标与任务目标错位。

如果再压缩成一句最本质的话:

这条路线的发展,本质上是在不断回答一个越来越具体的问题——智能体不该只学“别人当时怎么动”,而应学“动作如何让世界转移到未来”。


#十二、截至今日,我认为 WAM 真正还卡在哪

如果从研究判断上看,WAM 今天最卡的不是“idea 对不对”,而是下面几个更实质的问题。

#12.1 什么 future representation 才最适合控制

这几乎是 WAM 当前的中心问题。

候选表示包括:

  • 原始未来视频;
  • 抽象 latent dynamics;
  • 几何结构(depth / 3D / occupancy);
  • 动态 + 语义 + 空间知识;
  • object-centric / graph-based state。

我自己的判断是:

高维视频未来对 human interpretability 很友好,但对 control 未必最优;真正有效的 WAM 很可能最终要走向更抽象、更结构化、又不丢失可规划性的表示。

#12.2 WAM 与 policy optimization 怎么结合

目前很多 WAM 还是停留在:

  • 用 world-action 建模做更好的预训练;
  • 或在 frozen model 上做少量 policy refinement。

但更深的问题是:

  • 是否能在 WAM 内部做有效的 long-horizon credit assignment?
  • 是否能把 model-based RL 真正重写进 foundation model 时代的训练范式?
  • 是否能让 imagined rollouts 对策略优化稳定有益,而不是带来模型偏差放大?

这其实又把问题带回了你一直很关心的那条主线:

WAM 最终值不值钱,很大程度上取决于它能否和真正可持续的 model-based RL / latent planning 结合起来,而不是只做一个更贵的 imitation learner。

#12.3 数据来源如何统一

WAM 想吸收的数据天然异构:

  • Internet video
  • Robot demonstrations
  • Simulation rollouts
  • Language annotations
  • Weakly aligned human videos
  • Structure / geometry labels

如何把这些数据放进同一个统一目标里,仍然远未解决。

#12.4 评测范式还没有真正对齐研究目标

今天很多论文仍然在混合比较:

  • 任务成功率
  • 预测质量
  • 可视化未来 realism
  • zero-shot transfer
  • inference frequency

但这些指标并不总是一致。未来 WAM 要真正成为独立成熟方向,必须回答:

我们到底想优化一个“更像世界模拟器”的模型,还是一个“更会做决策”的模型?

两者重合,但不完全相同。


#十三、最后给一个总判断:WAM 的意义,不在于取代 VLA,而在于把机器人基础模型从“模仿动作”推向“建模动作导致的世界”

我最后给出一个尽量明确的判断。

#13.1 WAM 为什么值得重视

因为它第一次比较完整地把下面几件事放进了同一个研究命题:

  • 语义理解
  • 动作生成
  • 世界演化预测
  • 物理泛化
  • 长时程规划

它抓住了 embodied intelligence 中一个非常本质的问题:

真正强的 agent 不能只会在当前状态下模仿一个动作,它必须对“如果这样做,世界接下来会怎样”形成内部模型。

#13.2 但 WAM 还远未“胜负已分”

截至 2026-04-26,我不认为 WAM 已经是一个 fully solved、甚至 fully stabilized 的范式。更准确地说:

  • 它在概念上是对的;
  • 在若干任务上已经显示出比纯 VLA 更强的物理泛化潜力;
  • 但在通用表示、训练成本、控制效率、RL 融合方式上仍然处在早期快速分化阶段。

#13.3 最值得关注的下一步

如果看未来 1-2 年,最值得盯的不是“谁把 WAM 名字喊得更响”,而是三类真正关键的问题:

  1. latent / geometry / video 三种 future representation,谁会成为主线?
  2. WAM 能否和 model-based RL、尤其是 latent planning / imagination-based policy optimization 深度融合?
  3. WAM 能否在长时程开放环境任务上,稳定优于强 VLA 与 diffusion policy 基线,而不只是单点 demo?

如果这些问题被逐步解决,那么 WAM 才可能不是 VLA 的补丁,而是 embodied foundation model 的下一阶段主干。


#参考工作(按文中主线)

  • RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (2023)
  • OpenVLA: An Open-Source Vision-Language-Action Model (2024)
  • CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation (2024)
  • π0.5: a Vision-Language-Action Model with Open-World Generalization (2025)
  • GAIA-1: A Generative World Model for Autonomous Driving (2023)
  • DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving (2023)
  • DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation (2024)
  • Genie: Generative Interactive Environments (2024)
  • Cosmos World Foundation Model Platform for Physical AI (2025)
  • V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning (2025)
  • DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation (2025)
  • DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge (2025)
  • DreamZero: World Action Models are Zero-shot Policies (2026)
  • DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning (2026)
  • Magma: A Foundation Model for Multimodal AI Agents (2025)