#WAM(World Action Model)发展脉络综述:从世界模型到 VLA,再到统一生成与决策
#先给结论:WAM 不是“又一个机器人大模型”,而是试图把“世界如何变化”和“动作如何导致变化”一起建模
如果把这条线压缩成一句话,可以这样说:
传统 world model 主要回答“世界接下来会怎样”,VLA 主要回答“现在该输出什么动作”,而 WAM 想同时回答“如果我这样做,世界会怎样变化,以及我应该因此怎么做”。
所以 WAM(World Action Model)不是凭空冒出来的新名词,它本质上是三条技术路线汇合后的结果:
- 经典世界模型路线:从 latent dynamics、Dreamer 一直到视频世界模型,核心目标是学会预测未来。
- VLA 路线:从 RT-2、OpenVLA、π0/π0.5 等,核心目标是把互联网语义知识迁移进机器人动作生成。
- 大规模视频/多模态基础模型路线:从 Genie、GAIA-1、Cosmos、V-JEPA 2、Magma 等,核心目标是学到更开放、更可扩展、更接近真实世界的时空表示与交互先验。
WAM 之所以重要,不是因为它给这几条线起了个新名字,而是因为它抓住了这几条线的共同症结:
只会“直接出动作”的模型,往往不真正理解动作对未来世界的影响;只会“预测未来视频”的模型,又往往不直接服务于闭环控制。
WAM 试图把这两个问题合成一个:
- 让模型既预测未来世界,
- 又预测导致这个未来的动作,
- 并把这种联合建模变成规划、控制和泛化的基础。
但也正因为如此,WAM 不是“自然比 VLA 强”的简单替代。它只是把问题从“动作怎么出”升级成了“动作—状态转移—未来观测怎么统一建模”。问题更大了,潜力也更大了。
下面我按历史脉络展开。
#一、WAM 的真正前史,不是从 2025 才开始,而是从“控制要不要显式建模未来”这个老问题开始
如果从概念上追溯,WAM 的祖先其实不是 VLA,而是更早的 model-based RL / world model 思想。
#1.1 经典世界模型要解决什么问题
在早期强化学习和机器人学习里,主流方法长期分成两派:
- Model-free policy:直接从观测到动作,优点是简单,缺点是样本效率低、推理短视。
- Model-based 方法:先学环境动力学,再利用模型做规划,优点是更有前瞻性,缺点是模型误差会累积。
经典世界模型路线的核心问题一直是:
如果智能体要做长时程决策,能不能先在内部“想象未来”,再决定动作?
这条线的代表不是今天意义上的 foundation model,而是 latent dynamics model、PlaNet、Dreamer 系列这类工作。它们的重要性在于第一次比较系统地说明:
- 不必只学 policy;
- 可以学一个压缩后的 latent world;
- 再在 latent 里 rollout、评估、规划。
#1.2 这条路线解决了什么旧问题
相对 model-free,world model 路线解决了两个关键痛点:
- 样本效率问题:可以在学到的世界里反复“想象”,减少真实环境交互开销。
- 长时程前瞻性问题:动作不再只看当前,而是要看其对未来状态的影响。
也就是说,world model 解决的不是“机器人懂不懂语义”,而是:
控制是否能从“反射式响应”升级成“基于未来后果的决策”。
#1.3 它没有解决什么问题
但经典 world model 也有几个明显局限:
- 多在低维控制或较封闭环境中有效;
- 对开放世界语义几乎没有吸收能力;
- 很难直接处理自然语言指令;
- 很难在真实复杂视觉世界里学出稳定可用的长时程模型。
所以在这一阶段,问题变成了:
我们有“会预测未来”的模型了,但它不懂开放世界;我们需要一个既能理解语义、又能控制机器人、又最好能想象未来的框架。
这就为后来的 VLA 和大规模视频世界模型分别埋下了伏笔。
#二、第一条汇合支线:VLA 路线解决了“动作生成的语义贫困”,但没有真正解决“未来后果建模”
#2.1 RT-2:VLA 路线的标志性起点
代表工作: RT-2(2023)
RT-2 的关键突破在于:
把视觉语言模型直接接到机器人控制里,并把动作表示成 token,让“动作生成”进入大模型 next-token 范式。
它相对 RT-1 / 传统 generalist policy 的进步,不只是模型更大,而是范式变了:
- 机器人不再只从机器人数据里学;
- 而是把互联网视觉语言知识迁进控制;
- 机器人策略第一次显著表现出开放词汇语义泛化与初步推理能力。
#2.2 RT-2 解决了前一代什么问题
相对经典通用策略,RT-2 真正解决的是:
- 语义泛化不足:过去策略只能在训练分布内做动作模板匹配;RT-2 可以借助 web-scale 预训练理解更开放的语义约束。
- 语言接口太弱:过去语言更多像标签;RT-2 把语言变成了控制的核心条件变量。
- 机器人与大模型生态脱节:RT-2 让机器人控制与 token-based foundation model 技术栈初步对齐。
#2.3 RT-2 留下了什么新问题
但 RT-2 的核心局限也非常清楚:
- 动作 token 化不自然:连续控制被硬塞进离散 token 范式,本体上就有失真。
- 控制频率受自回归约束:next-token 解码天然慢,对闭环控制不友好。
- 仍然偏“短视”:模型会输出动作,但没有显式建模“这个动作如何改变未来世界”。
- 更像条件映射而非真正规划:语义变强了,不等于物理可行性、长时程稳健性也自动变强。
所以 RT-2 的贡献,是把“懂语义的动作生成”推到了台前;而它的缺点也把后来的问题暴露得非常清楚:
一个会说话、会识物的策略,并不 automatically 是一个会想未来的策略。
#三、VLA 的工程成熟期:OpenVLA、CogACT、π0/π0.5 在修动作生成,但仍未跳出“直接产动作”框架
#3.1 OpenVLA:把 VLA 从“概念验证”推向开源可复现
代表工作: OpenVLA(2024)
OpenVLA 的历史作用很重要。它解决的不是 RT-2 的哲学问题,而是工程与生态问题:
- RT-2 一类系统偏闭源、复现实用门槛高;
- 社区需要开源的 VLA 基线;
- 需要验证小得多的模型是否能取得接近甚至更好的控制效果。
OpenVLA 解决了什么?
- 可获得性问题:让 VLA 从“看得见论文、摸不到系统”变成可训练、可微调、可部署。
- 参数与性能效率问题:用远小于 RT-2-X 的规模取得强性能,说明 VLA 不必一味靠巨大参数量。
- 下游适配问题:强调高效微调与开源数据管线,推动 VLA 成为研究平台而不只是 showcase。
但 OpenVLA 没有从根本上改变 VLA 的结构矛盾:
- 它仍然主要是从观测和指令直接出动作;
- 它改善了可用性,没有根除前瞻性不足;
- 它把 VLA 做得更现实,却也更清楚地暴露出 VLA 的能力边界。
#3.2 CogACT:开始正面处理“直接 token 化动作性能不够”的问题
代表工作: CogACT(2024)
CogACT 明确指出一件事:
把 VLM 直接拿来量化动作并不够,动作这件事需要专门的建模头。
它相对 OpenVLA 之前方法解决了什么?
- 动作建模能力不足:把 action module 从 VLM 主干中“组件化”出来。
- 连续动作表达能力差:引入 diffusion action transformer,让动作分布建模比离散 token 更自然。
- 控制表现弱于语义能力:它试图让“认知”与“动作”分别建模,再在条件关系上耦合,而不是让语言模型自己硬扛一切。
这一步非常关键,因为它已经在隐含地承认:
纯粹把动作看成 token 可能不是最优范式,动作的随机性、连续性、时序相关性需要不同于文本 token 的建模机制。
但 CogACT 仍然没有真正跨到 WAM:
- 它优化的是“如何更好地产动作”;
- 不是“如何联合建模动作与世界演化”;
- 它增强的是 policy head,而不是显式 future world reasoning。
#3.3 π0 / π0.5:VLA 进一步走向开放世界泛化与长时程真实任务
代表工作: π0、π0.5(尤其 π0.5,2025)
π0.5 的意义在于它不再满足于实验室台面任务,而是试图回答:
VLA 到底能不能在真实家庭、真实新场景、长时程任务里工作?
它相对前一代方法解决了什么?
- 训练分布过窄:通过 heterogeneous co-training,联合多机器人、多任务、多模态监督。
- 开放环境泛化不足:引入 web data、高层语义预测、hybrid multimodal examples,扩大知识迁移面。
- 长时程任务能力弱:开始真正展示 cleaning、home setting 这类更像“真实世界服务机器人”的任务。
π0.5 提醒大家:VLA 确实可以继续扩、继续泛化,甚至向 real-world deploy 靠近。
但它也进一步放大了 VLA 的根本矛盾:
- 任务越开放,越需要强物理先验与时空后果建模;
- 任务越长程,越需要显式规划和 credit assignment;
- 任务越真实,越不能只靠“当前观测 → 下一段动作”的局部映射。
也就是说,VLA 在不断补强,但它越成功,就越逼近自己的边界:
当任务从“看懂并抓取”走向“在开放世界里持续操作”时,仅仅更强的动作生成并不够。
这就是 WAM 动机的第一大来源。
#四、第二条汇合支线:大规模世界模型开始逼近真实视觉世界,但长期不直接服务于动作决策
如果说 VLA 这条线解决的是“语义和动作怎么接起来”,那么另一条线解决的是“复杂真实世界到底能不能被大模型稳定建模”。
#4.1 GAIA-1:把 world model 带到真实自动驾驶场景
代表工作: GAIA-1(2023)
GAIA-1 的贡献不是语言理解,而是:
把视频、文本、动作联合输入一个生成式世界模型,用来生成可控的驾驶未来。
它相对传统模拟器 / 封闭 world model 解决了什么?
- 世界模型离真实场景太远:从真实自动驾驶数据出发,而不是只在游戏或简化环境里建模。
- 未来预测缺少可控性:让动作和文本进入生成条件,使生成未来不只是被动预测,而是可控 rollout。
- 视觉世界复杂度不足:在复杂街景中验证生成式世界模型的可行性。
GAIA-1 的意义在今天回看非常重要,因为它已经包含 WAM 的雏形:
- 有世界建模;
- 有动作条件;
- 有未来生成;
- 但目标主要还是 simulation / generation,而不是统一 policy learning。
它的新问题是:
- 模型可以生成未来,但生成得好不等于适合闭环控制;
- 生成目标仍偏视觉 realism,而不是 action-value usefulness;
- 自动驾驶场景虽然复杂,但其 action space 与 embodied manipulation 仍有差异。
#4.2 DriveDreamer:从真实驾驶 world model 走向更结构化的生成控制
代表工作: DriveDreamer(2023)
DriveDreamer 相对 GAIA-1 更强调真实驾驶世界的结构信息建模。它要解决的是:
- 纯视频生成难以稳定表达交通语义;
- 复杂驾驶场景需要对象、地图、布局等更结构化的中间表示;
- world model 不应只是画面补全器,而应成为 driving policy 的支撑。
所以 DriveDreamer 这类工作在本质上把一个新认识推到了台前:
如果世界模型真的要服务决策,它不能只会生成“像视频”,还得保留对几何、语义、交互结构的可操作表示。
这对后来的 WAM 非常关键。因为 WAM 不是要把视觉未来画得更美,而是要让未来表示对行动有用。
#4.3 DriveDreamer-2:把 LLM 接进 world model,可控性增强,但“语言—世界—动作”仍未完全统一
代表工作: DriveDreamer-2(2024)
DriveDreamer-2 解决的是 DriveDreamer 的另一个瓶颈:
- world model 能生成未来,
- 但用户怎样用自然语言指定“我想要什么未来”?
于是它把 LLM 接进来,用 query → trajectory → HDMap → multi-view generation 的链路提升可控性。
它相对前作解决了什么?
- 自定义生成能力不足:用户可以更明确地控制期望场景。
- 语言与世界模型割裂:用 LLM 作为接口,把自然语言愿望转成时空结构约束。
- 多视角一致性不足:强化 spatial-temporal coherence。
但它依然没有完成 WAM 意义上的统一:
- 语言主要作为条件接口;
- 动作与未来仍有 pipeline 式拆分;
- 更像“可控世界生成系统”,而不是“闭环世界—动作联合决策系统”。
不过到这里,第二条支线已经很清楚了:
世界模型一侧正在越来越强地学习真实时空演化、可控生成和结构化表示,但它还没有自然地变成政策。
#五、第三条汇合支线:视频基础模型与自监督视频表征让“从海量视频学世界”变得现实
#5.1 Genie:提出“交互式生成环境”的概念
代表工作: Genie(2024)
Genie 的历史意义非常大,因为它第一次鲜明地提出:
互联网视频不只是拿来做视频生成,也可以拿来学“可交互的环境”。
它解决了什么问题?
- 动作标签昂贵:从无标注视频中学习 latent action model。
- world model 数据稀缺:不再强依赖带动作标注的机器人/游戏数据。
- 交互环境生成门槛高:把“生成视频”推进到“生成可操控世界”。
Genie 的关键突破不在于它马上能控制真实机器人,而在于它给出一个更大胆的命题:
- 世界模型可以从海量自然视频中长出来;
- 动作可以先作为 latent interaction variable 被学到;
- controllability 不一定要完全依赖人工动作标签。
它带来的新问题也很清楚:
- latent action 未必对应真实可执行动作;
- 生成环境的可交互性与物理真实性之间还有很大差距;
- 从虚拟交互环境到现实闭环控制还有 domain gap。
但 Genie 把一件事坐实了:
如果要做通用世界—动作联合建模,海量视频是不能绕开的。
#5.2 Cosmos:把“world foundation model”明确提出来
代表工作: Cosmos World Foundation Model Platform(2025)
Cosmos 的贡献,是把原本分散的 world model 研究上升到平台和基础模型层面。它要解决的是:
- 世界模型缺少标准化基础设施:数据清洗、tokenizer、预训练模型、后训练路径都不统一。
- 不同 physical AI 场景都要从零建 world model:需要可微调的通用 world foundation model。
- world model 只停留在论文 demo:要走向产业级平台化。
Cosmos 相对 Genie / DriveDreamer 进一步推进了两个判断:
- world model 不是单一任务模型,而是基础设施;
- future physical AI 很可能需要先有“世界基础模型”,再有特定 policy。
但 Cosmos 仍以平台和世界建模为重心,并未天然等于 WAM:
- 它强调 world foundation model,
- 却未必把 action learning 作为一等公民统一进去;
- 它让“世界建模很重要”这件事变得无可回避,但没直接解决“怎么从世界模型中得到强策略”。
#5.3 V-JEPA 2:从 action-free video pretraining 走向 understanding、prediction、planning
代表工作: V-JEPA 2(2025)
V-JEPA 2 很关键,因为它把另一个思想推到了台前:
世界建模不一定非要靠 pixel reconstruction,也可以通过更抽象的 predictive representation 来服务理解、预测和规划。
它相对视频生成世界模型解决了什么?
- pixel-level 预测成本高、细节冗余重:转向更抽象、更高层的 predictive latent / embedding。
- 只会生成,不一定会理解:强调 motion understanding、anticipation、planning 支持。
- world model 和 policy 数据割裂:通过少量 interaction data 对接行动能力。
这对 WAM 的启发特别大,因为它说明:
- WAM 不必执着于像素重建;
- 更抽象、行动相关的 latent prediction 也可能更适合控制;
- “什么样的世界表示最适合决策”本身是核心问题。
也正因为此,后来的 WAM 形成了两条分歧:
- 显式视频/图像未来生成型 WAM;
- latent / geometry / structure-grounded WAM。
#六、在 WAM 形成之前,社区已经隐约看到一个断裂:VLA 会语义,World Model 会未来,但两边都不完整
到了 2024-2025,问题逐渐非常清晰:
#6.1 只做 VLA 的问题
VLA 系统越来越会:
- 理解语言;
- 对齐互联网语义;
- 生成灵活动作;
- 在开放环境中做初步泛化。
但它们仍然缺:
- 明确的未来状态预测;
- 对长时程后果的内部模拟;
- 更强的物理迁移能力;
- 在 novel motion / novel dynamics 上的外推性。
#6.2 只做 world model 的问题
世界模型越来越会:
- 生成未来视频;
- 学习时空动态;
- 吸收海量视频先验;
- 在 latent 中做预测和 planning。
但它们仍然缺:
- 语言指令跟随能力;
- 与动作控制的直接闭环耦合;
- 在真实机器人任务中的 policy usefulness;
- “如何把生成未来转成正确行动”的统一接口。
于是一个几乎必然的新问题出现了:
能不能有一种模型,不把“看未来”和“出动作”拆成两套系统,而是直接学“动作驱动的世界演化”?
这就是 WAM 概念真正出现的土壤。
#七、WAM 的提出:关键不在名字,而在建模对象从“动作”升级成“动作导致的未来”
先给 WAM 一个最简洁的定义:
WAM(World Action Model)是联合建模未来世界状态/观测与导致该变化的动作的模型;它把 action learning 和 world modeling 统一到同一个生成或预测框架中。
和 VLA 相比,WAM 关注点从:
- “给定当前观测和指令,下一步该输出什么动作”
变成:
- “给定当前世界、指令和潜在动作,未来会演化成什么;哪些动作会把世界带到更想要的未来”。
和传统 world model 相比,WAM 又多了:
- 动作不是辅助条件,而是联合建模对象;
- 学到的世界表示必须对 policy 直接有用;
- 目标不只是 simulation realism,而是闭环决策效果。
所以 WAM 的关键,不是“加了 action token”这么简单,而是目标函数和表示学习目标变了:
模型被迫学习 action-relevant world representation,而不是只学和视觉重建有关的 representation。
#八、WAM 的早期代表工作:从 task-specific 到 generalist,再到几何 grounding
#8.1 DyWA:WAM 思想在具体操纵子问题中的早期体现
代表工作: DyWA(Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation, 2025)
DyWA 很有代表性,因为它不是先从最宏大的 foundation model 场景切入,而是从一个非常具体但很难的任务出发:非抓取操纵。
这里传统方法的问题特别尖锐:
- 接触动力学复杂;
- 物体质量、摩擦等变化显著影响结果;
- 单纯 imitation 往往学到脆弱相关性;
- 多视角和精确跟踪依赖很重。
DyWA 相对之前方法解决了什么?
- 对物理变化不敏感:通过历史轨迹适配 dynamics variation,而不是只看当前帧。
- 几何—状态—物理—动作分离得太碎:把它们统一进一个 dynamics-adaptive world-action learning 框架。
- 强依赖精细传感和标注:试图降低对多视角与精准 tracking 的依赖。
它的重要性在于它非常清楚地说明:
当任务难点主要来自物理变化而非语义时,联合建模“未来状态 + 动作”会比纯 policy imitation 更自然。
但 DyWA 还不是通用 foundation-style WAM:
- 任务范围较窄;
- 更偏 specific manipulation setting;
- 并未真正解决开放世界语义与大规模多任务泛化。
不过它为 WAM 提供了一个关键论据:
WAM 不是只对“看起来像智能体的大模型”有用,它在物理鲁棒性问题上也有直接价值。
#8.2 DreamZero:明确提出“World Action Models are Zero-shot Policies”
代表工作: DreamZero(2026)
DreamZero 是当前 WAM 叙事里非常关键的代表,因为它直接把一个强论断摆上台面:
WAM 本身就可以是一种 zero-shot policy。
它相对 VLA 的关键批评非常明确:
- VLA 擅长语义泛化;
- 但在 novel physical motion、novel environment 下泛化不足;
- 原因是它并没有真正学到动作如何驱动世界变化。
DreamZero 解决了什么?
- 异构机器人数据利用效率不足:通过联合建模视频和动作,用视频作为 dense world evolution signal,提高 heterogeneous data 学习效率。
- VLA 对重复示范依赖强:WAM 可以从更丰富的状态转移统计中学技能,而不仅靠模板动作复现。
- zero-shot physical generalization 差:在新任务和新环境上展示对 VLAs 的显著优势。
- 大视频模型闭环控制频率不足:通过系统与模型优化,把大规模视频 diffusion WAM 推到 7Hz 实时闭环控制。
DreamZero 特别重要的一点在于它重新解释了“policy 是什么”:
- policy 不再只是直接输出 action 的函数;
- policy 可以是一个会 jointly imagine world-and-action 的生成模型;
- closed-loop control 则是在这个联合模型上不断条件化、滚动执行。
但 DreamZero 也把 WAM 的新问题彻底暴露出来:
- 计算代价极高:视频扩散骨干做实时控制仍然昂贵。
- 控制频率和延迟依旧是硬约束:7Hz 已很亮眼,但距离很多高带宽控制任务仍有限。
- 视频未来是否是最优行动表征:高维观测包含大量和控制无关的信息。
- 训练目标与控制目标仍未完全一致:会预测未来,不等于未来就对规划最有用。
也就是说,DreamZero 证明了 WAM 的潜力,但也让人开始认真追问:
WAM 应该学视频未来、latent future、还是更结构化的 future?
#8.3 DriveDreamer-Policy:从 2D/latent WAM 走向几何 grounding
代表工作: DriveDreamer-Policy(2026)
DriveDreamer-Policy 的开篇就很明确:
- WAM 正在成为连接 VLA 与 world model 的桥梁;
- 但已有方法往往偏 2D appearance 或 latent 表示;
- 对 embodied decision 来说,几何 grounding 不够是大问题。
这篇工作相对前一代 WAM 解决了什么?
- 缺少几何约束:引入 depth generation,使未来建模不只是像素外观的延续。
- 世界生成与动作规划割裂:把 depth generation、future video generation、motion planning 做统一模块化集成。
- 语言—视觉—动作对齐不够结构化:让 LLM 接收多视角视觉和导航目标,再输出更几何一致的决策。
它的重要性在于把 WAM 的内部路线分歧进一步说清了:
不是所有 WAM 都该只在图像空间里想未来;很多物理任务更需要几何、结构、可测量的中间表征。
但它也带来新问题:
- 几何 grounding 提升了物理一致性,却增加了系统复杂度;
- 模块更多,端到端统一训练更难;
- 在 driving 中有效的几何结构,不一定直接迁移到通用机器人操纵。
不过到这里,WAM 至少已经从概念上长成了三个方向:
- 视频生成型 WAM:强调 dense future imagination;
- latent / predictive representation 型 WAM:强调抽象、效率和 planning-friendliness;
- geometry-grounded WAM:强调物理结构与可执行性。
#九、一个重要过渡带:有些工作虽然不直接叫 WAM,但本质上已经在向 WAM 靠拢
WAM 的命名是后来的,但很多 2024-2025 的工作已经在做“VLA + world knowledge / prediction”的混合。
#9.1 DreamVLA:把 world knowledge forecasting 接进 VLA
代表工作: DreamVLA(2025)
DreamVLA 非常值得重视,因为它恰好处在 VLA 和 WAM 之间的过渡地带。
它相对传统 VLA 的出发点是:
- 单靠图像条件 + 动作输出,泛化与 reasoning 不够;
- 仅做 image-based forecasting 又有冗余信息、关键 world knowledge 不充分的问题;
- 机器人决策更需要 dynamic、spatial、semantic 三类信息的联合预测。
DreamVLA 解决了什么?
- VLA 缺少显式未来知识:引入 world knowledge forecasting,建立 perception-prediction-action loop。
- 像素未来冗余太高:不只看原始未来图像,而是预测动态、空间、语义等更紧凑的知识表示。
- 训练中不同信息互相干扰:用 block-wise structured attention 尝试解耦多类 world knowledge。
这类工作为什么重要?
因为它说明领域并不是简单从“纯 VLA”突然跳到“纯 WAM”,而是在出现一系列折中尝试:
先给 VLA 加未来知识,再看是否有必要把 policy 和 world model 完全统一。
DreamVLA 带来的新问题也很有代表性:
- 预测哪些 knowledge 才真正对控制有用?
- 多种预测目标如何避免互相污染?
- 是在 VLA 外围加预测头,还是把整个系统重写成 WAM,更优?
#9.2 Magma:面向数字世界和物理世界的多模态 agent foundation model
代表工作: Magma(2025)
Magma 不一定严格属于 WAM,但它很关键,因为它代表了另一条强趋势:
agent foundation model 正在同时覆盖 GUI、数字世界和机器人世界,动作不再局限于机械臂控制。
Magma 相对普通 VLM 的提升在于:
- 只有 verbal intelligence,没有 actionable intelligence:通过 SoM / ToM 等标注让模型学会可操作对象和动作轨迹。
- 数字世界和物理世界割裂:试图用统一多模态 agent 框架服务 UI 与机器人任务。
- 动作 grounding 太弱:让行动对象和时空轨迹显式进入训练。
它没有直接等于 WAM,但它告诉我们:
- WAM 未来未必只属于机器人;
- 只要任务是“观察—行动—世界变化”,统一 world-action modeling 都有可能成为通用 agent 范式;
- 数字世界 agent、自动驾驶 agent、机械臂 agent 之间的方法边界正在变薄。
#十、到今天为止,WAM 真正比 VLA 多了什么
这是最值得单独回答的问题。
#10.1 WAM 多出的不是“语言能力”,而是 action-relevant future modeling
VLA 的强项是:
- 语言跟随;
- 开放词汇语义;
- web knowledge transfer;
- 统一大模型接口。
WAM 额外多出的核心,是:
- 学“未来如何因动作而变化”;
- 学 action-conditioned world transition;
- 让 policy 学习不再只盯着监督动作,而盯着动作带来的未来结果。
换句话说:
VLA 更像“语义增强的直接策略”,WAM 更像“带可想象未来的生成式策略”。
#10.2 WAM 更适合解决哪些问题
截至今天,WAM 最有希望比 VLA 更占优的场景是:
- 需要强物理泛化的任务:环境动力学改变、物体属性改变、接触模式改变。
- 长时程任务:动作后果延迟出现,不能只盯局部 imitation。
- 异构数据融合:视频、机器人轨迹、仿真 rollout、弱动作数据混合利用。
- zero-shot / low-shot transfer:因为模型不是只背动作模板,而是在学转移规律。
#10.3 但 WAM 也不是免费午餐
WAM 把问题做大后,新的困难同样集中爆发:
- 训练与推理成本高:尤其是视频生成型 WAM。
- 表示选择困难:像素、latent、geometry、semantic structure,到底哪个最适合控制?
- 目标错位风险:生成得真实,不等于对动作选择最有帮助。
- 闭环控制频率压力:大模型想象未来很慢,而控制往往要求毫秒到数十毫秒级响应。
- 评测体系不成熟:WAM 到底该看视频质量、未来预测误差、任务成功率,还是 zero-shot transfer?目前并无统一标准。
#十一、如果把 WAM 的发展脉络串成一条逻辑链,最核心的演化关系是什么
我把这条线压缩成下面这个最关键的逻辑链:
#阶段 1:经典世界模型
想解决的问题: policy 太短视,能不能先想未来再行动?
解决了什么: 引入 latent dynamics、planning、imagined rollouts。
留下的新问题: 不懂开放世界语义,难处理真实复杂视觉场景。
#阶段 2:VLA(RT-2 → OpenVLA → CogACT → π0.5)
想解决的问题: 机器人策略不懂开放语义,能不能把 VLM/LLM 知识迁进动作控制?
解决了什么: 语义泛化、语言跟随、web knowledge transfer、generalist policy 生态化。
留下的新问题: 动作 token 化别扭、长时程前瞻性弱、物理泛化有限、本质仍偏直接策略。
#阶段 3:大规模视频/世界基础模型(GAIA-1 → DriveDreamer → Genie → Cosmos → V-JEPA 2)
想解决的问题: 复杂真实世界能不能被大模型学成一个可预测、可交互的时空系统?
解决了什么: 海量视频预训练、真实场景未来建模、可控 world generation、抽象 predictive representation。
留下的新问题: 会生成未来,不等于能闭环决策;语言与动作还未真正统一。
#阶段 4:WAM(DyWA → DreamVLA 过渡 → DreamZero → DriveDreamer-Policy)
想解决的问题: 能否把动作学习与世界演化统一起来,让模型既会想未来,又能据此控制?
解决了什么: action-relevant world modeling、物理泛化增强、zero-shot policy 潜力、生成与规划更深耦合。
留下的新问题: 计算代价、表示选择、控制频率、评测标准、世界建模目标与任务目标错位。
如果再压缩成一句最本质的话:
这条路线的发展,本质上是在不断回答一个越来越具体的问题——智能体不该只学“别人当时怎么动”,而应学“动作如何让世界转移到未来”。
#十二、截至今日,我认为 WAM 真正还卡在哪
如果从研究判断上看,WAM 今天最卡的不是“idea 对不对”,而是下面几个更实质的问题。
#12.1 什么 future representation 才最适合控制
这几乎是 WAM 当前的中心问题。
候选表示包括:
- 原始未来视频;
- 抽象 latent dynamics;
- 几何结构(depth / 3D / occupancy);
- 动态 + 语义 + 空间知识;
- object-centric / graph-based state。
我自己的判断是:
高维视频未来对 human interpretability 很友好,但对 control 未必最优;真正有效的 WAM 很可能最终要走向更抽象、更结构化、又不丢失可规划性的表示。
#12.2 WAM 与 policy optimization 怎么结合
目前很多 WAM 还是停留在:
- 用 world-action 建模做更好的预训练;
- 或在 frozen model 上做少量 policy refinement。
但更深的问题是:
- 是否能在 WAM 内部做有效的 long-horizon credit assignment?
- 是否能把 model-based RL 真正重写进 foundation model 时代的训练范式?
- 是否能让 imagined rollouts 对策略优化稳定有益,而不是带来模型偏差放大?
这其实又把问题带回了你一直很关心的那条主线:
WAM 最终值不值钱,很大程度上取决于它能否和真正可持续的 model-based RL / latent planning 结合起来,而不是只做一个更贵的 imitation learner。
#12.3 数据来源如何统一
WAM 想吸收的数据天然异构:
- Internet video
- Robot demonstrations
- Simulation rollouts
- Language annotations
- Weakly aligned human videos
- Structure / geometry labels
如何把这些数据放进同一个统一目标里,仍然远未解决。
#12.4 评测范式还没有真正对齐研究目标
今天很多论文仍然在混合比较:
- 任务成功率
- 预测质量
- 可视化未来 realism
- zero-shot transfer
- inference frequency
但这些指标并不总是一致。未来 WAM 要真正成为独立成熟方向,必须回答:
我们到底想优化一个“更像世界模拟器”的模型,还是一个“更会做决策”的模型?
两者重合,但不完全相同。
#十三、最后给一个总判断:WAM 的意义,不在于取代 VLA,而在于把机器人基础模型从“模仿动作”推向“建模动作导致的世界”
我最后给出一个尽量明确的判断。
#13.1 WAM 为什么值得重视
因为它第一次比较完整地把下面几件事放进了同一个研究命题:
- 语义理解
- 动作生成
- 世界演化预测
- 物理泛化
- 长时程规划
它抓住了 embodied intelligence 中一个非常本质的问题:
真正强的 agent 不能只会在当前状态下模仿一个动作,它必须对“如果这样做,世界接下来会怎样”形成内部模型。
#13.2 但 WAM 还远未“胜负已分”
截至 2026-04-26,我不认为 WAM 已经是一个 fully solved、甚至 fully stabilized 的范式。更准确地说:
- 它在概念上是对的;
- 在若干任务上已经显示出比纯 VLA 更强的物理泛化潜力;
- 但在通用表示、训练成本、控制效率、RL 融合方式上仍然处在早期快速分化阶段。
#13.3 最值得关注的下一步
如果看未来 1-2 年,最值得盯的不是“谁把 WAM 名字喊得更响”,而是三类真正关键的问题:
- latent / geometry / video 三种 future representation,谁会成为主线?
- WAM 能否和 model-based RL、尤其是 latent planning / imagination-based policy optimization 深度融合?
- WAM 能否在长时程开放环境任务上,稳定优于强 VLA 与 diffusion policy 基线,而不只是单点 demo?
如果这些问题被逐步解决,那么 WAM 才可能不是 VLA 的补丁,而是 embodied foundation model 的下一阶段主干。
#参考工作(按文中主线)
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (2023)
- OpenVLA: An Open-Source Vision-Language-Action Model (2024)
- CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation (2024)
- π0.5: a Vision-Language-Action Model with Open-World Generalization (2025)
- GAIA-1: A Generative World Model for Autonomous Driving (2023)
- DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving (2023)
- DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation (2024)
- Genie: Generative Interactive Environments (2024)
- Cosmos World Foundation Model Platform for Physical AI (2025)
- V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning (2025)
- DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation (2025)
- DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge (2025)
- DreamZero: World Action Models are Zero-shot Policies (2026)
- DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning (2026)
- Magma: A Foundation Model for Multimodal AI Agents (2025)