主题归档 2026-04-26 ★★★★★ wam world-model robotics embodied-ai vla survey

#WAM（World Action Model）发展脉络综述：从世界模型到 VLA，再到统一生成与决策

#先给结论：WAM 不是“又一个机器人大模型”，而是试图把“世界如何变化”和“动作如何导致变化”一起建模

如果把这条线压缩成一句话，可以这样说：

传统 world model 主要回答“世界接下来会怎样”，VLA 主要回答“现在该输出什么动作”，而 WAM 想同时回答“如果我这样做，世界会怎样变化，以及我应该因此怎么做”。

所以 WAM（World Action Model）不是凭空冒出来的新名词，它本质上是三条技术路线汇合后的结果：

经典世界模型路线：从 latent dynamics、Dreamer 一直到视频世界模型，核心目标是学会预测未来。
VLA 路线：从 RT-2、OpenVLA、π0/π0.5 等，核心目标是把互联网语义知识迁移进机器人动作生成。
大规模视频/多模态基础模型路线：从 Genie、GAIA-1、Cosmos、V-JEPA 2、Magma 等，核心目标是学到更开放、更可扩展、更接近真实世界的时空表示与交互先验。

WAM 之所以重要，不是因为它给这几条线起了个新名字，而是因为它抓住了这几条线的共同症结：

只会“直接出动作”的模型，往往不真正理解动作对未来世界的影响；只会“预测未来视频”的模型，又往往不直接服务于闭环控制。

WAM 试图把这两个问题合成一个：

让模型既预测未来世界，
又预测导致这个未来的动作，
并把这种联合建模变成规划、控制和泛化的基础。

但也正因为如此，WAM 不是“自然比 VLA 强”的简单替代。它只是把问题从“动作怎么出”升级成了“动作—状态转移—未来观测怎么统一建模”。问题更大了，潜力也更大了。

下面我按历史脉络展开。

#一、WAM 的真正前史，不是从 2025 才开始，而是从“控制要不要显式建模未来”这个老问题开始

如果从概念上追溯，WAM 的祖先其实不是 VLA，而是更早的 model-based RL / world model 思想。

#1.1 经典世界模型要解决什么问题

在早期强化学习和机器人学习里，主流方法长期分成两派：

Model-free policy：直接从观测到动作，优点是简单，缺点是样本效率低、推理短视。
Model-based 方法：先学环境动力学，再利用模型做规划，优点是更有前瞻性，缺点是模型误差会累积。

经典世界模型路线的核心问题一直是：

如果智能体要做长时程决策，能不能先在内部“想象未来”，再决定动作？

这条线的代表不是今天意义上的 foundation model，而是 latent dynamics model、PlaNet、Dreamer 系列这类工作。它们的重要性在于第一次比较系统地说明：

不必只学 policy；
可以学一个压缩后的 latent world；
再在 latent 里 rollout、评估、规划。

#1.2 这条路线解决了什么旧问题

相对 model-free，world model 路线解决了两个关键痛点：

样本效率问题：可以在学到的世界里反复“想象”，减少真实环境交互开销。
长时程前瞻性问题：动作不再只看当前，而是要看其对未来状态的影响。

也就是说，world model 解决的不是“机器人懂不懂语义”，而是：

控制是否能从“反射式响应”升级成“基于未来后果的决策”。

#1.3 它没有解决什么问题

但经典 world model 也有几个明显局限：

多在低维控制或较封闭环境中有效；
对开放世界语义几乎没有吸收能力；
很难直接处理自然语言指令；
很难在真实复杂视觉世界里学出稳定可用的长时程模型。

所以在这一阶段，问题变成了：

我们有“会预测未来”的模型了，但它不懂开放世界；我们需要一个既能理解语义、又能控制机器人、又最好能想象未来的框架。

这就为后来的 VLA 和大规模视频世界模型分别埋下了伏笔。

#二、第一条汇合支线：VLA 路线解决了“动作生成的语义贫困”，但没有真正解决“未来后果建模”

#2.1 RT-2：VLA 路线的标志性起点

代表工作： RT-2（2023）

RT-2 的关键突破在于：

把视觉语言模型直接接到机器人控制里，并把动作表示成 token，让“动作生成”进入大模型 next-token 范式。

它相对 RT-1 / 传统 generalist policy 的进步，不只是模型更大，而是范式变了：

机器人不再只从机器人数据里学；
而是把互联网视觉语言知识迁进控制；
机器人策略第一次显著表现出开放词汇语义泛化与初步推理能力。

#2.2 RT-2 解决了前一代什么问题

相对经典通用策略，RT-2 真正解决的是：

语义泛化不足：过去策略只能在训练分布内做动作模板匹配；RT-2 可以借助 web-scale 预训练理解更开放的语义约束。
语言接口太弱：过去语言更多像标签；RT-2 把语言变成了控制的核心条件变量。
机器人与大模型生态脱节：RT-2 让机器人控制与 token-based foundation model 技术栈初步对齐。

#2.3 RT-2 留下了什么新问题

但 RT-2 的核心局限也非常清楚：

动作 token 化不自然：连续控制被硬塞进离散 token 范式，本体上就有失真。
控制频率受自回归约束：next-token 解码天然慢，对闭环控制不友好。
仍然偏“短视”：模型会输出动作，但没有显式建模“这个动作如何改变未来世界”。
更像条件映射而非真正规划：语义变强了，不等于物理可行性、长时程稳健性也自动变强。

所以 RT-2 的贡献，是把“懂语义的动作生成”推到了台前；而它的缺点也把后来的问题暴露得非常清楚：

一个会说话、会识物的策略，并不 automatically 是一个会想未来的策略。

#三、VLA 的工程成熟期：OpenVLA、CogACT、π0/π0.5 在修动作生成，但仍未跳出“直接产动作”框架

#3.1 OpenVLA：把 VLA 从“概念验证”推向开源可复现

代表工作： OpenVLA（2024）

OpenVLA 的历史作用很重要。它解决的不是 RT-2 的哲学问题，而是工程与生态问题：

RT-2 一类系统偏闭源、复现实用门槛高；
社区需要开源的 VLA 基线；
需要验证小得多的模型是否能取得接近甚至更好的控制效果。

OpenVLA 解决了什么？

可获得性问题：让 VLA 从“看得见论文、摸不到系统”变成可训练、可微调、可部署。
参数与性能效率问题：用远小于 RT-2-X 的规模取得强性能，说明 VLA 不必一味靠巨大参数量。
下游适配问题：强调高效微调与开源数据管线，推动 VLA 成为研究平台而不只是 showcase。

但 OpenVLA 没有从根本上改变 VLA 的结构矛盾：

它仍然主要是从观测和指令直接出动作；
它改善了可用性，没有根除前瞻性不足；
它把 VLA 做得更现实，却也更清楚地暴露出 VLA 的能力边界。

#3.2 CogACT：开始正面处理“直接 token 化动作性能不够”的问题

代表工作： CogACT（2024）

CogACT 明确指出一件事：

把 VLM 直接拿来量化动作并不够，动作这件事需要专门的建模头。

它相对 OpenVLA 之前方法解决了什么？

动作建模能力不足：把 action module 从 VLM 主干中“组件化”出来。
连续动作表达能力差：引入 diffusion action transformer，让动作分布建模比离散 token 更自然。
控制表现弱于语义能力：它试图让“认知”与“动作”分别建模，再在条件关系上耦合，而不是让语言模型自己硬扛一切。

这一步非常关键，因为它已经在隐含地承认：

纯粹把动作看成 token 可能不是最优范式，动作的随机性、连续性、时序相关性需要不同于文本 token 的建模机制。

但 CogACT 仍然没有真正跨到 WAM：

它优化的是“如何更好地产动作”；
不是“如何联合建模动作与世界演化”；
它增强的是 policy head，而不是显式 future world reasoning。

#3.3 π0 / π0.5：VLA 进一步走向开放世界泛化与长时程真实任务

代表工作： π0、π0.5（尤其 π0.5，2025）

π0.5 的意义在于它不再满足于实验室台面任务，而是试图回答：

VLA 到底能不能在真实家庭、真实新场景、长时程任务里工作？

它相对前一代方法解决了什么？

训练分布过窄：通过 heterogeneous co-training，联合多机器人、多任务、多模态监督。
开放环境泛化不足：引入 web data、高层语义预测、hybrid multimodal examples，扩大知识迁移面。
长时程任务能力弱：开始真正展示 cleaning、home setting 这类更像“真实世界服务机器人”的任务。

π0.5 提醒大家：VLA 确实可以继续扩、继续泛化，甚至向 real-world deploy 靠近。

但它也进一步放大了 VLA 的根本矛盾：

任务越开放，越需要强物理先验与时空后果建模；
任务越长程，越需要显式规划和 credit assignment；
任务越真实，越不能只靠“当前观测 → 下一段动作”的局部映射。

也就是说，VLA 在不断补强，但它越成功，就越逼近自己的边界：

当任务从“看懂并抓取”走向“在开放世界里持续操作”时，仅仅更强的动作生成并不够。

这就是 WAM 动机的第一大来源。

#四、第二条汇合支线：大规模世界模型开始逼近真实视觉世界，但长期不直接服务于动作决策

如果说 VLA 这条线解决的是“语义和动作怎么接起来”，那么另一条线解决的是“复杂真实世界到底能不能被大模型稳定建模”。

#4.1 GAIA-1：把 world model 带到真实自动驾驶场景

代表工作： GAIA-1（2023）

GAIA-1 的贡献不是语言理解，而是：

把视频、文本、动作联合输入一个生成式世界模型，用来生成可控的驾驶未来。

它相对传统模拟器 / 封闭 world model 解决了什么？

世界模型离真实场景太远：从真实自动驾驶数据出发，而不是只在游戏或简化环境里建模。
未来预测缺少可控性：让动作和文本进入生成条件，使生成未来不只是被动预测，而是可控 rollout。
视觉世界复杂度不足：在复杂街景中验证生成式世界模型的可行性。

GAIA-1 的意义在今天回看非常重要，因为它已经包含 WAM 的雏形：

有世界建模；
有动作条件；
有未来生成；
但目标主要还是 simulation / generation，而不是统一 policy learning。

它的新问题是：

模型可以生成未来，但生成得好不等于适合闭环控制；
生成目标仍偏视觉 realism，而不是 action-value usefulness；
自动驾驶场景虽然复杂，但其 action space 与 embodied manipulation 仍有差异。

#4.2 DriveDreamer：从真实驾驶 world model 走向更结构化的生成控制

代表工作： DriveDreamer（2023）

DriveDreamer 相对 GAIA-1 更强调真实驾驶世界的结构信息建模。它要解决的是：

纯视频生成难以稳定表达交通语义；
复杂驾驶场景需要对象、地图、布局等更结构化的中间表示；
world model 不应只是画面补全器，而应成为 driving policy 的支撑。

所以 DriveDreamer 这类工作在本质上把一个新认识推到了台前：

如果世界模型真的要服务决策，它不能只会生成“像视频”，还得保留对几何、语义、交互结构的可操作表示。

这对后来的 WAM 非常关键。因为 WAM 不是要把视觉未来画得更美，而是要让未来表示对行动有用。

#4.3 DriveDreamer-2：把 LLM 接进 world model，可控性增强，但“语言—世界—动作”仍未完全统一

代表工作： DriveDreamer-2（2024）

DriveDreamer-2 解决的是 DriveDreamer 的另一个瓶颈：

world model 能生成未来，
但用户怎样用自然语言指定“我想要什么未来”？

于是它把 LLM 接进来，用 query → trajectory → HDMap → multi-view generation 的链路提升可控性。

它相对前作解决了什么？

自定义生成能力不足：用户可以更明确地控制期望场景。
语言与世界模型割裂：用 LLM 作为接口，把自然语言愿望转成时空结构约束。
多视角一致性不足：强化 spatial-temporal coherence。

但它依然没有完成 WAM 意义上的统一：

语言主要作为条件接口；
动作与未来仍有 pipeline 式拆分；
更像“可控世界生成系统”，而不是“闭环世界—动作联合决策系统”。

不过到这里，第二条支线已经很清楚了：

世界模型一侧正在越来越强地学习真实时空演化、可控生成和结构化表示，但它还没有自然地变成政策。

#五、第三条汇合支线：视频基础模型与自监督视频表征让“从海量视频学世界”变得现实

#5.1 Genie：提出“交互式生成环境”的概念

代表工作： Genie（2024）

Genie 的历史意义非常大，因为它第一次鲜明地提出：

互联网视频不只是拿来做视频生成，也可以拿来学“可交互的环境”。

它解决了什么问题？

动作标签昂贵：从无标注视频中学习 latent action model。
world model 数据稀缺：不再强依赖带动作标注的机器人/游戏数据。
交互环境生成门槛高：把“生成视频”推进到“生成可操控世界”。

Genie 的关键突破不在于它马上能控制真实机器人，而在于它给出一个更大胆的命题：

世界模型可以从海量自然视频中长出来；
动作可以先作为 latent interaction variable 被学到；
controllability 不一定要完全依赖人工动作标签。

它带来的新问题也很清楚：

latent action 未必对应真实可执行动作；
生成环境的可交互性与物理真实性之间还有很大差距；
从虚拟交互环境到现实闭环控制还有 domain gap。

但 Genie 把一件事坐实了：

如果要做通用世界—动作联合建模，海量视频是不能绕开的。

#5.2 Cosmos：把“world foundation model”明确提出来

代表工作： Cosmos World Foundation Model Platform（2025）

Cosmos 的贡献，是把原本分散的 world model 研究上升到平台和基础模型层面。它要解决的是：

世界模型缺少标准化基础设施：数据清洗、tokenizer、预训练模型、后训练路径都不统一。
不同 physical AI 场景都要从零建 world model：需要可微调的通用 world foundation model。
world model 只停留在论文 demo：要走向产业级平台化。

Cosmos 相对 Genie / DriveDreamer 进一步推进了两个判断：

world model 不是单一任务模型，而是基础设施；
future physical AI 很可能需要先有“世界基础模型”，再有特定 policy。

但 Cosmos 仍以平台和世界建模为重心，并未天然等于 WAM：

它强调 world foundation model，
却未必把 action learning 作为一等公民统一进去；
它让“世界建模很重要”这件事变得无可回避，但没直接解决“怎么从世界模型中得到强策略”。

#5.3 V-JEPA 2：从 action-free video pretraining 走向 understanding、prediction、planning

代表工作： V-JEPA 2（2025）

V-JEPA 2 很关键，因为它把另一个思想推到了台前：

世界建模不一定非要靠 pixel reconstruction，也可以通过更抽象的 predictive representation 来服务理解、预测和规划。

它相对视频生成世界模型解决了什么？

pixel-level 预测成本高、细节冗余重：转向更抽象、更高层的 predictive latent / embedding。
只会生成，不一定会理解：强调 motion understanding、anticipation、planning 支持。
world model 和 policy 数据割裂：通过少量 interaction data 对接行动能力。

这对 WAM 的启发特别大，因为它说明：

WAM 不必执着于像素重建；
更抽象、行动相关的 latent prediction 也可能更适合控制；
“什么样的世界表示最适合决策”本身是核心问题。

也正因为此，后来的 WAM 形成了两条分歧：

显式视频/图像未来生成型 WAM；
latent / geometry / structure-grounded WAM。

#六、在 WAM 形成之前，社区已经隐约看到一个断裂：VLA 会语义，World Model 会未来，但两边都不完整

到了 2024-2025，问题逐渐非常清晰：

#6.1 只做 VLA 的问题

VLA 系统越来越会：

理解语言；
对齐互联网语义；
生成灵活动作；
在开放环境中做初步泛化。

但它们仍然缺：

明确的未来状态预测；
对长时程后果的内部模拟；
更强的物理迁移能力；
在 novel motion / novel dynamics 上的外推性。

#6.2 只做 world model 的问题

世界模型越来越会：

生成未来视频；
学习时空动态；
吸收海量视频先验；
在 latent 中做预测和 planning。

但它们仍然缺：

语言指令跟随能力；
与动作控制的直接闭环耦合；
在真实机器人任务中的 policy usefulness；
“如何把生成未来转成正确行动”的统一接口。

于是一个几乎必然的新问题出现了：

能不能有一种模型，不把“看未来”和“出动作”拆成两套系统，而是直接学“动作驱动的世界演化”？

这就是 WAM 概念真正出现的土壤。

#七、WAM 的提出：关键不在名字，而在建模对象从“动作”升级成“动作导致的未来”

先给 WAM 一个最简洁的定义：

WAM（World Action Model）是联合建模未来世界状态/观测与导致该变化的动作的模型；它把 action learning 和 world modeling 统一到同一个生成或预测框架中。

和 VLA 相比，WAM 关注点从：

“给定当前观测和指令，下一步该输出什么动作”

变成：

“给定当前世界、指令和潜在动作，未来会演化成什么；哪些动作会把世界带到更想要的未来”。

和传统 world model 相比，WAM 又多了：

动作不是辅助条件，而是联合建模对象；
学到的世界表示必须对 policy 直接有用；
目标不只是 simulation realism，而是闭环决策效果。

所以 WAM 的关键，不是“加了 action token”这么简单，而是目标函数和表示学习目标变了：

模型被迫学习 action-relevant world representation，而不是只学和视觉重建有关的 representation。

#八、WAM 的早期代表工作：从 task-specific 到 generalist，再到几何 grounding

#8.1 DyWA：WAM 思想在具体操纵子问题中的早期体现

代表工作： DyWA（Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation, 2025）

DyWA 很有代表性，因为它不是先从最宏大的 foundation model 场景切入，而是从一个非常具体但很难的任务出发：非抓取操纵。

这里传统方法的问题特别尖锐：

接触动力学复杂；
物体质量、摩擦等变化显著影响结果；
单纯 imitation 往往学到脆弱相关性；
多视角和精确跟踪依赖很重。

DyWA 相对之前方法解决了什么？

对物理变化不敏感：通过历史轨迹适配 dynamics variation，而不是只看当前帧。
几何—状态—物理—动作分离得太碎：把它们统一进一个 dynamics-adaptive world-action learning 框架。
强依赖精细传感和标注：试图降低对多视角与精准 tracking 的依赖。

它的重要性在于它非常清楚地说明：

当任务难点主要来自物理变化而非语义时，联合建模“未来状态 + 动作”会比纯 policy imitation 更自然。

但 DyWA 还不是通用 foundation-style WAM：

任务范围较窄；
更偏 specific manipulation setting；
并未真正解决开放世界语义与大规模多任务泛化。

不过它为 WAM 提供了一个关键论据：

WAM 不是只对“看起来像智能体的大模型”有用，它在物理鲁棒性问题上也有直接价值。

#8.2 DreamZero：明确提出“World Action Models are Zero-shot Policies”

代表工作： DreamZero（2026）

DreamZero 是当前 WAM 叙事里非常关键的代表，因为它直接把一个强论断摆上台面：

WAM 本身就可以是一种 zero-shot policy。

它相对 VLA 的关键批评非常明确：

VLA 擅长语义泛化；
但在 novel physical motion、novel environment 下泛化不足；
原因是它并没有真正学到动作如何驱动世界变化。

DreamZero 解决了什么？

异构机器人数据利用效率不足：通过联合建模视频和动作，用视频作为 dense world evolution signal，提高 heterogeneous data 学习效率。
VLA 对重复示范依赖强：WAM 可以从更丰富的状态转移统计中学技能，而不仅靠模板动作复现。
zero-shot physical generalization 差：在新任务和新环境上展示对 VLAs 的显著优势。
大视频模型闭环控制频率不足：通过系统与模型优化，把大规模视频 diffusion WAM 推到 7Hz 实时闭环控制。

DreamZero 特别重要的一点在于它重新解释了“policy 是什么”：

policy 不再只是直接输出 action 的函数；
policy 可以是一个会 jointly imagine world-and-action 的生成模型；
closed-loop control 则是在这个联合模型上不断条件化、滚动执行。

但 DreamZero 也把 WAM 的新问题彻底暴露出来：

计算代价极高：视频扩散骨干做实时控制仍然昂贵。
控制频率和延迟依旧是硬约束：7Hz 已很亮眼，但距离很多高带宽控制任务仍有限。
视频未来是否是最优行动表征：高维观测包含大量和控制无关的信息。
训练目标与控制目标仍未完全一致：会预测未来，不等于未来就对规划最有用。

也就是说，DreamZero 证明了 WAM 的潜力，但也让人开始认真追问：

WAM 应该学视频未来、latent future、还是更结构化的 future？

#8.3 DriveDreamer-Policy：从 2D/latent WAM 走向几何 grounding

代表工作： DriveDreamer-Policy（2026）

DriveDreamer-Policy 的开篇就很明确：

WAM 正在成为连接 VLA 与 world model 的桥梁；
但已有方法往往偏 2D appearance 或 latent 表示；
对 embodied decision 来说，几何 grounding 不够是大问题。

这篇工作相对前一代 WAM 解决了什么？

缺少几何约束：引入 depth generation，使未来建模不只是像素外观的延续。
世界生成与动作规划割裂：把 depth generation、future video generation、motion planning 做统一模块化集成。
语言—视觉—动作对齐不够结构化：让 LLM 接收多视角视觉和导航目标，再输出更几何一致的决策。

它的重要性在于把 WAM 的内部路线分歧进一步说清了：

不是所有 WAM 都该只在图像空间里想未来；很多物理任务更需要几何、结构、可测量的中间表征。

但它也带来新问题：

几何 grounding 提升了物理一致性，却增加了系统复杂度；
模块更多，端到端统一训练更难；
在 driving 中有效的几何结构，不一定直接迁移到通用机器人操纵。

不过到这里，WAM 至少已经从概念上长成了三个方向：

视频生成型 WAM：强调 dense future imagination；
latent / predictive representation 型 WAM：强调抽象、效率和 planning-friendliness；
geometry-grounded WAM：强调物理结构与可执行性。

#九、一个重要过渡带：有些工作虽然不直接叫 WAM，但本质上已经在向 WAM 靠拢

WAM 的命名是后来的，但很多 2024-2025 的工作已经在做“VLA + world knowledge / prediction”的混合。

#9.1 DreamVLA：把 world knowledge forecasting 接进 VLA

代表工作： DreamVLA（2025）

DreamVLA 非常值得重视，因为它恰好处在 VLA 和 WAM 之间的过渡地带。

它相对传统 VLA 的出发点是：

单靠图像条件 + 动作输出，泛化与 reasoning 不够；
仅做 image-based forecasting 又有冗余信息、关键 world knowledge 不充分的问题；
机器人决策更需要 dynamic、spatial、semantic 三类信息的联合预测。

DreamVLA 解决了什么？

VLA 缺少显式未来知识：引入 world knowledge forecasting，建立 perception-prediction-action loop。
像素未来冗余太高：不只看原始未来图像，而是预测动态、空间、语义等更紧凑的知识表示。
训练中不同信息互相干扰：用 block-wise structured attention 尝试解耦多类 world knowledge。

这类工作为什么重要？

因为它说明领域并不是简单从“纯 VLA”突然跳到“纯 WAM”，而是在出现一系列折中尝试：

先给 VLA 加未来知识，再看是否有必要把 policy 和 world model 完全统一。

DreamVLA 带来的新问题也很有代表性：

预测哪些 knowledge 才真正对控制有用？
多种预测目标如何避免互相污染？
是在 VLA 外围加预测头，还是把整个系统重写成 WAM，更优？

#9.2 Magma：面向数字世界和物理世界的多模态 agent foundation model

代表工作： Magma（2025）

Magma 不一定严格属于 WAM，但它很关键，因为它代表了另一条强趋势：

agent foundation model 正在同时覆盖 GUI、数字世界和机器人世界，动作不再局限于机械臂控制。

Magma 相对普通 VLM 的提升在于：

只有 verbal intelligence，没有 actionable intelligence：通过 SoM / ToM 等标注让模型学会可操作对象和动作轨迹。
数字世界和物理世界割裂：试图用统一多模态 agent 框架服务 UI 与机器人任务。
动作 grounding 太弱：让行动对象和时空轨迹显式进入训练。

它没有直接等于 WAM，但它告诉我们：

WAM 未来未必只属于机器人；
只要任务是“观察—行动—世界变化”，统一 world-action modeling 都有可能成为通用 agent 范式；
数字世界 agent、自动驾驶 agent、机械臂 agent 之间的方法边界正在变薄。

#十、到今天为止，WAM 真正比 VLA 多了什么

这是最值得单独回答的问题。

#10.1 WAM 多出的不是“语言能力”，而是 action-relevant future modeling

VLA 的强项是：

语言跟随；
开放词汇语义；
web knowledge transfer；
统一大模型接口。

WAM 额外多出的核心，是：

学“未来如何因动作而变化”；
学 action-conditioned world transition；
让 policy 学习不再只盯着监督动作，而盯着动作带来的未来结果。

换句话说：

VLA 更像“语义增强的直接策略”，WAM 更像“带可想象未来的生成式策略”。

#10.2 WAM 更适合解决哪些问题

截至今天，WAM 最有希望比 VLA 更占优的场景是：

需要强物理泛化的任务：环境动力学改变、物体属性改变、接触模式改变。
长时程任务：动作后果延迟出现，不能只盯局部 imitation。
异构数据融合：视频、机器人轨迹、仿真 rollout、弱动作数据混合利用。
zero-shot / low-shot transfer：因为模型不是只背动作模板，而是在学转移规律。

#10.3 但 WAM 也不是免费午餐

WAM 把问题做大后，新的困难同样集中爆发：

训练与推理成本高：尤其是视频生成型 WAM。
表示选择困难：像素、latent、geometry、semantic structure，到底哪个最适合控制？
目标错位风险：生成得真实，不等于对动作选择最有帮助。
闭环控制频率压力：大模型想象未来很慢，而控制往往要求毫秒到数十毫秒级响应。
评测体系不成熟：WAM 到底该看视频质量、未来预测误差、任务成功率，还是 zero-shot transfer？目前并无统一标准。

#十一、如果把 WAM 的发展脉络串成一条逻辑链，最核心的演化关系是什么

我把这条线压缩成下面这个最关键的逻辑链：

#阶段 1：经典世界模型

想解决的问题： policy 太短视，能不能先想未来再行动？

解决了什么： 引入 latent dynamics、planning、imagined rollouts。

留下的新问题： 不懂开放世界语义，难处理真实复杂视觉场景。

#阶段 2：VLA（RT-2 → OpenVLA → CogACT → π0.5）

想解决的问题： 机器人策略不懂开放语义，能不能把 VLM/LLM 知识迁进动作控制？

解决了什么： 语义泛化、语言跟随、web knowledge transfer、generalist policy 生态化。

留下的新问题： 动作 token 化别扭、长时程前瞻性弱、物理泛化有限、本质仍偏直接策略。

#阶段 3：大规模视频/世界基础模型（GAIA-1 → DriveDreamer → Genie → Cosmos → V-JEPA 2）

想解决的问题： 复杂真实世界能不能被大模型学成一个可预测、可交互的时空系统？

解决了什么： 海量视频预训练、真实场景未来建模、可控 world generation、抽象 predictive representation。

留下的新问题： 会生成未来，不等于能闭环决策；语言与动作还未真正统一。

#阶段 4：WAM（DyWA → DreamVLA 过渡 → DreamZero → DriveDreamer-Policy）

想解决的问题： 能否把动作学习与世界演化统一起来，让模型既会想未来，又能据此控制？

解决了什么： action-relevant world modeling、物理泛化增强、zero-shot policy 潜力、生成与规划更深耦合。

留下的新问题： 计算代价、表示选择、控制频率、评测标准、世界建模目标与任务目标错位。

如果再压缩成一句最本质的话：

这条路线的发展，本质上是在不断回答一个越来越具体的问题——智能体不该只学“别人当时怎么动”，而应学“动作如何让世界转移到未来”。

#十二、截至今日，我认为 WAM 真正还卡在哪

如果从研究判断上看，WAM 今天最卡的不是“idea 对不对”，而是下面几个更实质的问题。

#12.1 什么 future representation 才最适合控制

这几乎是 WAM 当前的中心问题。

候选表示包括：

原始未来视频；
抽象 latent dynamics；
几何结构（depth / 3D / occupancy）；
动态 + 语义 + 空间知识；
object-centric / graph-based state。

我自己的判断是：

高维视频未来对 human interpretability 很友好，但对 control 未必最优；真正有效的 WAM 很可能最终要走向更抽象、更结构化、又不丢失可规划性的表示。

#12.2 WAM 与 policy optimization 怎么结合

目前很多 WAM 还是停留在：

用 world-action 建模做更好的预训练；
或在 frozen model 上做少量 policy refinement。

但更深的问题是：

是否能在 WAM 内部做有效的 long-horizon credit assignment？
是否能把 model-based RL 真正重写进 foundation model 时代的训练范式？
是否能让 imagined rollouts 对策略优化稳定有益，而不是带来模型偏差放大？

这其实又把问题带回了你一直很关心的那条主线：

WAM 最终值不值钱，很大程度上取决于它能否和真正可持续的 model-based RL / latent planning 结合起来，而不是只做一个更贵的 imitation learner。

#12.3 数据来源如何统一

WAM 想吸收的数据天然异构：

Internet video
Robot demonstrations
Simulation rollouts
Language annotations
Weakly aligned human videos
Structure / geometry labels

如何把这些数据放进同一个统一目标里，仍然远未解决。

#12.4 评测范式还没有真正对齐研究目标

今天很多论文仍然在混合比较：

任务成功率
预测质量
可视化未来 realism
zero-shot transfer
inference frequency

但这些指标并不总是一致。未来 WAM 要真正成为独立成熟方向，必须回答：

我们到底想优化一个“更像世界模拟器”的模型，还是一个“更会做决策”的模型？

两者重合，但不完全相同。

#十三、最后给一个总判断：WAM 的意义，不在于取代 VLA，而在于把机器人基础模型从“模仿动作”推向“建模动作导致的世界”

我最后给出一个尽量明确的判断。

#13.1 WAM 为什么值得重视

因为它第一次比较完整地把下面几件事放进了同一个研究命题：

语义理解
动作生成
世界演化预测
物理泛化
长时程规划

它抓住了 embodied intelligence 中一个非常本质的问题：

真正强的 agent 不能只会在当前状态下模仿一个动作，它必须对“如果这样做，世界接下来会怎样”形成内部模型。

#13.2 但 WAM 还远未“胜负已分”

截至 2026-04-26，我不认为 WAM 已经是一个 fully solved、甚至 fully stabilized 的范式。更准确地说：

它在概念上是对的；
在若干任务上已经显示出比纯 VLA 更强的物理泛化潜力；
但在通用表示、训练成本、控制效率、RL 融合方式上仍然处在早期快速分化阶段。

#13.3 最值得关注的下一步

如果看未来 1-2 年，最值得盯的不是“谁把 WAM 名字喊得更响”，而是三类真正关键的问题：

latent / geometry / video 三种 future representation，谁会成为主线？
WAM 能否和 model-based RL、尤其是 latent planning / imagination-based policy optimization 深度融合？
WAM 能否在长时程开放环境任务上，稳定优于强 VLA 与 diffusion policy 基线，而不只是单点 demo？

如果这些问题被逐步解决，那么 WAM 才可能不是 VLA 的补丁，而是 embodied foundation model 的下一阶段主干。

#参考工作（按文中主线）

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (2023)
OpenVLA: An Open-Source Vision-Language-Action Model (2024)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation (2024)
π0.5: a Vision-Language-Action Model with Open-World Generalization (2025)
GAIA-1: A Generative World Model for Autonomous Driving (2023)
DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving (2023)
DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation (2024)
Genie: Generative Interactive Environments (2024)
Cosmos World Foundation Model Platform for Physical AI (2025)
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning (2025)
DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation (2025)
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge (2025)
DreamZero: World Action Models are Zero-shot Policies (2026)
DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning (2026)
Magma: A Foundation Model for Multimodal AI Agents (2025)