#以 DreamZero 为锚点看 World Action Model:从 Dreamer、视频生成规划到机器人零样本策略

一句话核心结论:DreamZero 的意义不只是“又一个机器人策略模型”,而是把机器人基础模型的核心问题从 VLA 的 vision-language → action 映射 推向 world-action model:让模型先学会想象世界如何随动作变化,再把这种想象直接转成可执行策略

它站在 Dreamer/MuZero/TD-MPC 的 model-based RL、UniPi/Genie/RoboDreamer 的视频世界模型、RT-1/RT-2/Octo/GR-1 的机器人基础模型三条线交汇处。它真正提出的范式问题是:未来机器人策略到底应该是直接预测动作,还是应该联合预测未来世界和动作?

这篇报告会以 DreamZero 为锚点,按“之前的问题链 → DreamZero 做了什么 → 之后的工作如何沿着它展开 → 还能做什么科研”来讲。

阅读地图:如果你对这个方向完全陌生,可以按下面路线读:第 0 节先确认 DreamZero 指哪篇;第 1 节讲它为什么重要;第 2 节把容易吓人的术语翻译成人话;第 3 节讲 DreamZero 之前的四条脉络;第 4 节讲 DreamZero 本身,尤其是“视频和动作如何对齐”;第 5 节讲后续工作在补哪些坑;第 7–8 节回到可以做的科研问题。


#0. 先说明:DreamZero 到底是哪篇?

本报告中的 DreamZero 指:

  • 论文: World Action Models are Zero-shot Policies
  • arXiv: 2602.15922
  • 项目页: <https://dreamzero0.github.io/>
  • 代码: <https://github.com/dreamzero0/dreamzero>
  • 时间: 2026 年 2 月
  • 核心名词: World Action Model,简称 WAM

它的核心主张是:

一个预训练视频扩散模型,如果被改造成能联合预测未来视频和动作的 World Action Model,那么它不只是一个 world model,也可以直接作为 zero-shot robot policy。

换句话说,DreamZero 不是传统的:

当前图像 + 语言指令 -> 动作

而更接近:

当前视觉历史 + 语言指令 + 本体状态 -> 未来视觉轨迹 + 对应动作轨迹

它想把“想象未来”和“执行动作”合在一个模型里。

这里的“联合”不是简单多接一个动作头。更关键的是:模型在训练时同时看到“动作序列”和“动作造成的画面变化”,于是它学到一种对应关系——如果未来画面里手靠近杯子、夹住杯子、杯子被抬起,那么动作也应该是靠近、闭合夹爪、抬起,而不是随便输出一串数字。


#1. 为什么 DreamZero 这个点重要?

#1.1 VLA 很强,但它的短板是“物理动作泛化”

过去两三年,机器人基础模型的一条主线是 VLA:Vision-Language-Action model。典型思路是:用视觉语言模型的语义能力,再接一个动作头,让模型能根据图像和语言输出机器人动作。

这类模型的优势很明显:

  • 能理解开放词汇物体;
  • 能理解自然语言指令;
  • 能把互联网视觉语言知识迁移到机器人;
  • 能在大规模机器人数据上做多任务泛化。

但它也有一个很根本的问题:VLM 主要从静态图像/文本学到语义知识,不一定学到了物理世界如何随动作演化。

比如模型知道“鞋带是什么”“解开鞋带是什么意思”,但它不一定知道:

  • 手应该先抓哪一段鞋带;
  • 拉动后鞋带会怎么变形;
  • 哪些动作会导致打结更紧;
  • 接触和摩擦会怎样影响结果;
  • 动作失败后视觉状态如何变化。

这就是 DreamZero 想解决的核心矛盾:机器人任务不只是语义理解,更是时空动力学理解。

#1.2 “世界模型”在 RL 里早就存在,但还没有自然变成机器人 foundation policy

Dreamer、MuZero、TD-MPC 这些工作早就证明:如果 agent 能学一个环境模型,并在模型里想象未来,决策会更高效。

但这些方法通常有几个特点:

  • 依赖 reward;
  • 依赖环境交互;
  • 多数是任务内训练;
  • 常在游戏、仿真控制 benchmark 上验证;
  • 不直接处理开放语言任务和真实机器人长尾场景。

DreamZero 试图把这个思想推进到 foundation model 时代:世界模型不再只是小型 task-specific dynamics model,而是一个大规模视频扩散 backbone,带有从视频中学来的物理和时空先验。

#1.3 DreamZero 的新命题:视频模型能不能直接成为策略?

视频生成模型天然会“想象未来”。如果一个视频模型看到当前场景和指令,能生成“完成任务后的未来过程”,那它似乎已经有了某种计划。

问题是:好看的未来视频如何变成机器人动作?

比如视频里看起来只是“手把杯子拿起来”,但对机器人来说,这背后要回答很多具体问题:夹爪从哪个方向接近?什么时候闭合?闭合多紧?手腕要不要转?抬起时速度多快?如果这些动作细节和视频里的物体运动不匹配,视频再合理,机器人也执行不出来。

早期路线通常是:

视频模型生成未来图像 -> inverse dynamics / controller 反推动作 -> 执行

DreamZero 更进一步:

一个模型联合生成未来视频和动作,让动作与想象出来的未来对齐

这就是 WAM 的核心:world prediction 和 action prediction 不再分离。


#2. 先把几个容易吓人的词翻译成人话

在进入论文脉络前,先把这篇文章会反复出现的几个词讲清楚。你可以先不记英文,只记它们各自想解决的问题。

这些词大致分四类:

  • 基本决策概念:world model、policy、zero-shot;
  • 机器人基础模型:VLA、WAM、foundation policy;
  • 生成模型机制:latent、diffusion、denoise;
  • 动作与身体:inverse dynamics、action chunk、embodiment、proprioception。

#2.1 World model:脑子里的“世界会怎么变”的模型

World model 直译是世界模型。人话说,它就是一个预测器:

现在世界长这样 + 我做某个动作
-> 接下来世界大概会变成什么样

比如:

  • 你推杯子,杯子会滑;
  • 你夹住杯子再抬,杯子会离开桌面;
  • 你没夹住就抬手,杯子不会动;
  • 你推太猛,杯子可能倒。

机器人如果没有 world model,就像一个只会背动作表的人:看到“杯子”就伸手,但不一定知道伸手后会发生什么。DreamZero 关心的正是:机器人能不能拥有一种“物理想象力”。

#2.2 Policy:策略,就是“现在该怎么动”

Policy 不神秘,就是决策规则:

当前看到什么 + 当前目标是什么
-> 下一步动作是什么

传统机器人 policy 多数直接学:

图像 + 指令 -> 动作

DreamZero 想让 policy 不只是条件反射,而是带着未来想象:

图像 + 指令 -> 想象未来会怎样 -> 输出与这个未来一致的动作

#2.3 VLA:看图、听话、出动作的模型

VLA 是 Vision-Language-Action。拆开就是:

  • Vision:看图;
  • Language:听懂语言;
  • Action:输出机器人动作。

VLA 的强项是语义理解。比如它知道“杯垫”“水果”“垃圾桶”是什么,也能理解“把红色杯子放到杯垫上”。

但 VLA 的短板是:它不一定真的懂物理过程。它可能知道杯子是什么,却不一定知道夹爪从哪个角度接近最稳、杯子滑动后该怎么修正、衣服被折叠时形状如何变化。

所以后面你看到 VLA,可以先把它理解成:语义脑比较强,但物理想象脑可能不够强。

#2.4 WAM:世界模型和动作模型绑在一起

WAM 是 World Action Model。它比普通 world model 多了动作,比普通 policy 多了未来世界。

普通 policy:

当前画面 -> 动作

普通 world model:

当前画面 + 动作 -> 未来画面

WAM 想做的是:

当前画面 + 指令
-> 未来世界会怎么变 + 为了让它这样变应该做什么动作

所以 WAM 的关键词不是“多输出一个视频”,而是:动作和未来世界要配套。

#2.5 Zero-shot policy:没针对这个任务再训练,也能直接试着做

Zero-shot 的意思是:模型没有针对当前这个具体任务再训练,就直接拿来执行。

比如模型训练时见过很多“拿东西、放东西、整理桌面”,但没有专门练过“把这个陌生杯子放到这个陌生杯垫上”。如果它仍然能根据指令和当前画面直接做,就叫 zero-shot policy。

DreamZero 标题里说 “World Action Models are Zero-shot Policies”,核心就是:如果 WAM 真能学到通用的“动作—世界变化”关系,它就不只是一个生成器,而可能在新任务上直接变成策略。

#2.6 Foundation policy:不是单任务小策略,而是可复用的大策略模型

Foundation model 在语言模型里指可迁移到很多任务的大模型。对应到机器人里,foundation policy 可以理解成:不是为一个杯子、一个桌子、一个动作训练的小策略,而是希望跨任务、跨场景、跨物体复用的大策略模型。

这也是为什么 DreamZero 重要:它不是只想解决某个固定任务,而是想问“视频世界模型能不能成为一种机器人基础策略”。

#2.7 Latent:压缩后的内部表示,不是完整画面

Latent 可以理解成模型脑子里的压缩笔记。

比如你看一张桌面照片,你不需要记住每个像素,也能记住:

杯子在左边,夹爪在右边,杯子可以被抓,目标位置在中间。

这就是一种 latent。它不是原始图像,但保留了对任务有用的信息。

所以“latent world model”可以先理解成:不画出完整未来视频,而是在脑子里保留一个压缩的未来状态。

#2.8 Diffusion / denoise:从一团乱草稿,慢慢修成合理结果

Diffusion model 可以用画画类比。模型一开始拿到的是一团噪声,像一张乱涂的草稿。然后它一步步修改:

一团乱噪声 -> 粗略轮廓 -> 更清楚的物体 -> 最终图像/动作

Denoise 就是“去噪”,也就是把乱草稿修干净。

在 DreamZero 里,模型不是只修视频,也不是只修动作,而是同时修:

被打乱的未来视频 + 被打乱的动作
-> 一套配套的未来视频 + 动作方案

#2.9 Inverse dynamics:从“发生了什么变化”反推“做了什么动作”

Inverse dynamics 直译是逆动力学。人话说,就是反推:

我看到杯子从桌上被拿起来
-> 那中间大概发生了什么动作?
-> 夹爪可能先靠近、闭合、然后上抬

UniPi 这类方法常见做法是先生成未来视频,再用 inverse dynamics 反推动作。DreamZero 则不想把这两步拆开,而是让未来视频和动作一起生成。

#2.10 Action chunk:一次不要只出一步,而是出一小段动作

机器人控制通常不是每次只输出一个瞬间动作,而是输出一小段动作序列,比如接下来 0.5 秒或 1 秒怎么动。这就叫 action chunk

好处是动作更平滑,也更像人的连续动作。但风险是:如果这一小段想错了,执行太久就会偏。所以 DreamZero 会执行一小段后重新观察真实世界。

#2.11 Embodiment:机器人自己的身体形态

Embodiment 可以理解成“身体”。不同机器人身体不同:

  • 有的是单臂;
  • 有的是双臂;
  • 有的是夹爪;
  • 有的是灵巧手;
  • 摄像头位置、关节数量、动作空间也不同。

同一个“拿杯子”的视频,人手能做,不代表夹爪机器人能用同样动作做。所以跨 embodiment 的核心难题是:同一个任务意图,如何换一具身体执行?

#2.12 Proprioception:机器人对自己身体状态的感知

Proprioception 可以理解成“本体感知”。人闭着眼也大概知道手在哪里,机器人也需要知道自己的关节角、夹爪开合、末端位置等。

DreamZero 输入里不只有相机画面和语言,也有机器人自己的身体状态。否则它只看画面,可能不知道自己的手现在到底在什么姿态。


#3. DreamZero 之前:这条线是怎么一步步走到 WAM 的?

这一节我们先不急着讲论文名。先用一个小白也能抓住的主线来理解:

机器人要完成任务,至少需要三种能力:

1. 知道目标是什么:比如“把杯子放到杯垫上”;

2. 知道世界会怎么变:如果手往左推,杯子会移动;如果夹爪没夹紧,杯子会掉;

3. 知道自己该怎么动:关节、夹爪、底盘具体怎么控制。

不同历史阶段的工作,其实是在补这三块能力里的不同缺口。

  • Model-based RL 这条线在说:智能体应该先学一个世界模型,在脑子里试一试,再行动。
  • Diffusion Policy 这条线在说:机器人动作本身很复杂,最好把动作序列当成一个生成问题。
  • Video Generation as Planning 这条线在说:如果能生成未来视频,那未来视频本身就像一个计划。
  • VLA / 机器人基础模型这条线在说:机器人需要听懂语言、看懂物体、跨任务泛化。

DreamZero 的位置就是:它把这几条线揉在一起,问了一个更激进的问题:

能不能让一个视频世界模型不仅会“想象未来”,还会同时给出“为了达到这个未来应该执行的动作”?

下面按脉络展开。


#3.1 第一条线:model-based RL —— “先在脑子里试一遍,再真的动手”

如果完全不懂 RL,可以先把 model-based RL 理解成一个很朴素的常识。

比如你要把杯子从桌子左边挪到右边。你不会随机乱挥手,而会在脑子里预演:

如果我从这个角度抓 -> 杯子可能被夹住
如果我抓太边缘 -> 杯子可能滑掉
如果我先推一下 -> 杯子可能更靠近手

这就是“世界模型”的直觉:行动前先预测行动后世界会怎样。

#Dreamer:在 latent space 里做梦

代表工作: Dreamer / DreamerV2 / DreamerV3。

Dreamer 想解决的问题是:真实世界试错太贵。机器人、游戏 agent 或控制系统如果每学一个动作都要真实执行,成本很高,也可能危险。所以 Dreamer 训练一个 world model,让 agent 可以在模型里“做梦”。

它的流程可以用人话写成:

真实环境里收集一些经验
-> 学一个“世界会怎么变”的模型
-> 在这个模型里想象很多未来轨迹
-> 用想象轨迹训练策略
-> 再回真实环境验证

这里的关键词是 latent imagination。latent 可以理解成“压缩后的脑内状态”,不是完整图像。比如你看到一个杯子,不一定要记住每个像素,只要记住“杯子在左边、手在右边、杯子可抓”这些对决策有用的信息。

Dreamer 解决了什么旧问题?

  • 旧问题:RL 需要大量真实交互,样本效率低。
  • Dreamer 的答案:学一个世界模型,在模型里大量想象,减少真实试错。

它留下了什么新问题?

  • 它通常还是 task-specific 的:一个任务里学世界模型和策略。
  • 它依赖 reward:需要知道什么结果是好、什么是坏。
  • 它的世界模型主要服务于 RL value/policy,不是一个能听语言、看真实复杂场景、跨任务泛化的机器人基础模型。

它和 DreamZero 的关系是什么?

Dreamer 给了 DreamZero 一个非常重要的思想:想象未来可以帮助决策。

但 DreamZero 把这个思想换了一个时代背景:

  • Dreamer 的 world model 多是小模型、任务内训练;
  • DreamZero 的 world model 是大视频模型,有互联网/大规模视频先验;
  • Dreamer 在想象里训练 policy;
  • DreamZero 让 world model 本身直接输出动作,成为 zero-shot policy。

所以可以这样记:

Dreamer 是“在梦里训练一个策略”;DreamZero 是“让会做梦的模型自己就变成策略”。

#MuZero:不需要还原整个世界,只需要学会“对决策有用的世界”

代表工作: MuZero。

MuZero 很有意思,因为它没有要求模型重建真实画面。它不关心“下一帧像素长什么样”,而关心:

  • 当前局面是什么;
  • 做某个动作后局面大概变成什么;
  • 这个动作会带来多少 reward;
  • 未来胜率/value 是多少。

用下棋类比,MuZero 不需要在脑子里生成一个漂亮棋盘图片,它只需要知道“这步棋之后我的局势更好还是更坏”。

它解决了什么旧问题?

  • 旧问题:如果要求 world model 还原所有细节,可能浪费大量容量。
  • MuZero 的答案:只学对规划有用的信息,不必重建像素。

它留下了什么新问题?

  • 它更适合游戏/离散动作/MCTS 搜索设置。
  • 它依赖 reward/value/self-play,不是直接处理真实机器人和语言指令。
  • 它的动作空间和真实机器人连续控制差别很大。

它和 DreamZero 的关系是什么?

MuZero 给 DreamZero 之后的研究一个提醒:生成 RGB 视频不一定是最终答案。

DreamZero 选择生成视频,是因为视频扩散模型已经很强,视频也很直观。但从控制角度看,机器人真正需要的可能不是“每个像素都对”,而是:

  • 哪个物体会动;
  • 是否发生接触;
  • 夹爪和物体的相对位置;
  • 当前动作是否让任务更接近完成。

所以 MuZero 这条思想会导向 DreamZero 后续的一个重要问题:

WAM 应该预测好看的未来视频,还是预测对控制最有用的未来状态?

#TD-MPC / TD-MPC2:连续控制里的“短期脑内试动作”

代表工作: TD-MPC / TD-MPC2。

TD-MPC 更接近机器人控制。它做的是连续动作控制:不是“上下左右”这种离散动作,而是关节角、速度、力矩这类连续数值。

它的直觉像这样:

我先在模型里试 100 种未来动作序列
看看哪一种预测结果最好
选最好的前几步执行
执行后重新观察,再规划下一段

这就是 MPC:Model Predictive Control,模型预测控制。

它解决了什么旧问题?

  • Dreamer 类方法证明想象有用,但机器人控制里动作连续、精度要求高。
  • TD-MPC 把 learned latent dynamics 和 MPC 结合起来,让模型在连续控制里更实用。

它留下了什么新问题?

  • 仍然更偏具体任务/benchmark,不是开放世界机器人基础模型。
  • 需要 reward/value 或任务定义。
  • 一般没有自然语言理解,也没有互联网视频先验。

它和 DreamZero 的关系是什么?

TD-MPC 和 DreamZero 都有“短期预测 + 闭环执行”的味道。但区别是:

  • TD-MPC 通常是“学一个动力学模型,然后在线搜索动作”;
  • DreamZero 是“生成未来视频和动作,动作直接从模型出来”,不需要每次做大量搜索。

所以 DreamZero 更像把 MPC 的“短期想象”压进一个大生成模型里,让模型一次性给出一段 action chunk。


#3.2 第二条线:Diffusion Policy —— “动作不是一个点,而是一整段轨迹”

理解 Diffusion Policy,要先理解机器人动作为什么难。

假设任务是“把毛巾叠起来”。同一个初始状态下,可能有很多合理动作:

  • 可以先抓左上角;
  • 也可以先抓右上角;
  • 可以先抖一下;
  • 可以先拉平再折。

这些都可能对。传统行为克隆如果用一个简单高斯分布拟合动作,容易把多种动作平均起来,结果变成一个谁都不像的动作。

Diffusion Policy 的想法是:既然图像生成里扩散模型能生成复杂、多峰、高质量样本,那动作也可以用扩散模型生成。

它的流程是:

输入当前图像/状态/任务条件
-> 从噪声开始逐步去噪
-> 生成一整段未来动作序列 action chunk
-> 执行其中一部分,再重新观察

它解决了什么旧问题?

  • 旧问题:机器人动作分布多峰,简单 policy 容易平均掉。
  • Diffusion Policy 的答案:用扩散模型生成动作序列,表达复杂动作分布。

它留下了什么新问题?

  • 它主要生成动作,不显式预测“动作执行后世界会怎样”。
  • 如果环境变化超出训练分布,它没有一个显式 world model 来检查自己的动作后果。
  • 它更像强动作生成器,而不是能“想象未来”的决策系统。

它和 DreamZero 的关系是什么?

DreamZero 继承了“动作 chunk 生成”这个思想,但加了一半灵魂:动作要和未来视觉一起生成。

可以这样对比:

Diffusion Policy:当前观测 -> 未来动作
DreamZero:当前观测 -> 未来视频 + 未来动作

Diffusion Policy 像一个熟练工人,看到场景后直接伸手;DreamZero 像一个会先在脑子里看到“杯子被拿起来并放好”的工人,然后让动作跟着这个想象走。


#3.3 第三条线:Video Generation as Planning —— “如果能看到未来视频,那它就是一种计划”

视频生成规划这条线非常接近 DreamZero,也最容易用人话理解。

如果我给你一张当前桌面的图片,再给一句话:“把苹果放进碗里”。如果一个模型能生成一段视频:

手伸向苹果 -> 抓住苹果 -> 移到碗上方 -> 松手 -> 苹果落入碗中

那这段视频其实已经是一个计划。它告诉你中间应该经历哪些状态。

问题是:视频不是动作。视频里手动了,但机器人到底每个关节该怎么动?这就需要 inverse dynamics,也就是“从状态变化反推动作”。

#UniPi:先生成视频计划,再反推动作

代表工作: UniPi, Learning Universal Policies via Text-Guided Video Generation

UniPi 的路线是:

当前图像 + 文本目标
-> 生成未来视频
-> 用 inverse dynamics / controller 把视频变成动作

它解决了什么旧问题?

  • 旧问题:传统 policy 直接从目标到动作,中间缺少可解释计划。
  • UniPi 的答案:先生成未来视觉轨迹,把规划变成视频生成。

它留下了什么新问题?

  • 生成的视频可能看起来对,但未必能被真实机器人执行。
  • 视频生成和动作执行是两个模块,中间可能断裂。所谓“断裂”,可以理解成:视频模型只负责想象结果,动作模型只负责追这个结果。前者可能生成了一个人类手很容易完成、但当前机器人夹爪很难完成的动作过程;后者即使努力反推,也找不到一串真实可执行的关节动作。
  • inverse dynamics 如果不够强,视频计划也落不了地。

它和 DreamZero 的关系是什么?

UniPi 是 DreamZero 的重要前身。它已经说出“视频可以是计划”。DreamZero 往前推了一步:

UniPi:先生成视频,再找动作
DreamZero:视频和动作一起生成,让动作天然对齐视频

所以 DreamZero 可以看作是在修补 UniPi 的断点:不要让 video planner 和 action executor 分家。

#RoboDreamer:不只是复现任务,而是组合出新任务

代表工作: RoboDreamer。

机器人任务有一个麻烦:训练集中可能见过“拿苹果”,也见过“把杯子放进碗”,但没见过“把苹果放进碗”。如果模型只是记忆训练任务,就泛化不了。

RoboDreamer 关注的是 compositional world model,也就是组合式世界模型。它希望模型能把任务拆成更小的 primitive:

靠近物体 -> 抓取物体 -> 移动物体 -> 放下物体

然后把见过的元素重新组合成没见过的新任务。

它解决了什么旧问题?

  • 旧问题:视频规划模型可能只会生成训练中见过的组合。
  • RoboDreamer 的答案:把任务分解成可组合 primitive,提高组合泛化。

它留下了什么新问题?

  • 它仍然更偏“生成未来视频计划”。
  • 要让真实机器人执行,还需要动作模块或 controller。
  • 组合出来的视频是否物理可行、动作是否可执行,仍是问题。

它和 DreamZero 的关系是什么?

RoboDreamer 让 DreamZero 这类模型看到:WAM 不应该只是模仿训练数据里的整段轨迹,还应该能组合技能、组合物体和动作。

DreamZero 则进一步关心:组合出来的未来,不仅要像视频,还要能配上动作并落到真实机器人上。

#Genie / Genie2:从无动作标签视频里学“可交互世界”

代表工作: Genie / Genie2。

Genie 做的事情可以用游戏类比:给模型看很多游戏视频,即使视频里没有标注“玩家按了左键/右键/跳跃”,模型也尝试学出一种 latent action,让生成的世界可以被控制。

它解决的是一个非常大的问题:互联网上有海量视频,但大多数没有机器人动作标签。能不能从这些视频里学到“世界如何响应动作”?

它解决了什么旧问题?

  • 旧问题:带 action label 的机器人数据很少,但无标签视频很多。
  • Genie 的答案:从视频中无监督学 latent action 和可交互生成环境。

它留下了什么新问题?

  • latent action 不一定对应真实机器人的关节动作。
  • 游戏/视频里的可交互控制和真实机器人控制还有很大 gap。
  • 它更像生成可交互环境,不是直接输出真实机器人动作。

它和 DreamZero 的关系是什么?

Genie 证明“视频里可能藏着动作结构”。DreamZero 面对的是下一步:

如何把视频里学到的动作结构,接到真实机器人的 embodiment 和 action space 上?

这也是 DreamZero 做 video-only human/robot transfer 的意义所在:如果 WAM 能从没有动作标注的视频里吸收任务动态,那未来就可能利用大规模人类视频学习机器人技能。

#UniSim:把生成模型当成“真实世界模拟器”

代表工作: UniSim, Learning Interactive Real-World Simulators

UniSim 的想法是训练一个可以响应动作的真实世界模拟器。它不只是生成一段开放式视频,而是希望模型知道:如果 agent/robot/human 做了某个动作,世界会如何变化。

它解决了什么旧问题?

  • 旧问题:物理仿真器建模真实世界太难,视觉多样性、接触、物体变化都复杂。
  • UniSim 的答案:从多源数据里学习一个生成式交互模拟器。

它留下了什么新问题?

  • 模拟器生成的未来是否足够准确?
  • 它能否支持真实机器人控制,而不是只生成 plausible video?
  • action consistency 和 contact correctness 很难。

它和 DreamZero 的关系是什么?

UniSim 更像“外部世界模拟器”,DreamZero 更像“把模拟器压进策略模型内部”。

UniSim:我给你一个可交互世界,你可以在里面试动作
DreamZero:我自己在内部想象未来,并直接输出动作

#3.4 第四条线:机器人基础模型 —— “机器人需要听懂人话,也要跨任务泛化”

上面几条线强调世界模型、动作生成、视频计划。但机器人还需要另一个能力:听懂自然语言、认识物体、理解任务。

这就是 VLA / robot foundation model 这条线。

#RT-1:先证明“大规模机器人数据 + Transformer policy”有效

代表工作: RT-1, Robotics Transformer for Real-World Control at Scale

RT-1 可以理解成机器人领域的一个重要信号:不要再为每个小任务训练一个小 policy,而是用大量真实机器人数据训练一个多任务 Transformer。

它输入图像和语言,输出动作 token。

它解决了什么旧问题?

  • 旧问题:机器人策略常常一个任务一个模型,泛化很差。
  • RT-1 的答案:收集大规模多任务机器人数据,训练一个通用策略。

它留下了什么新问题?

  • 它主要是 direct policy,不显式预测未来世界。
  • 泛化依赖数据覆盖,训练没覆盖的新技能仍然困难。
  • 它的语义理解和物理动力学理解还没有充分分开。

它和 DreamZero 的关系是什么?

RT-1 开启的是“机器人也要 scaling”的思路。DreamZero 继承 scaling,但把 scaling 的对象从 direct policy 扩展到 world-action model。

#RT-2:把互联网语义知识迁移到机器人

代表工作: RT-2, Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT-2 的核心想法是:VLM 已经从互联网学了很多视觉语言知识,为什么不把这些知识迁移到机器人?

它把动作也表示成 token,让 VLM 可以像输出文本一样输出机器人动作。

它解决了什么旧问题?

  • 旧问题:机器人数据少,模型不认识长尾物体和复杂语言概念。
  • RT-2 的答案:把 web-scale VLM 知识迁移到 action prediction。

它留下了什么新问题?

  • VLM 的强项是语义,不是物理动力学。
  • 它知道“锤子可以敲东西”,不代表知道机器人手腕怎么转、接触力怎么变化。
  • 对未见过的 motion/skill,direct action head 仍然可能弱。

它和 DreamZero 的关系是什么?

RT-2 代表 VLA 路线的高光:机器人终于能借用互联网语义知识。DreamZero 则指出 VLA 还少了一块:视频/物理世界先验。

可以这样记:

RT-2:让机器人借用 VLM 的语义脑
DreamZero:让机器人借用视频模型的物理想象脑

未来更可能是二者结合:VLA 做任务理解,WAM 做物理想象和短期控制。

#Open X-Embodiment / RT-X / Octo:解决机器人数据碎片化

代表工作: Open X-Embodiment, RT-X, Octo。

机器人数据有一个很现实的问题:不同实验室的机器人长得不一样,摄像头不一样,动作空间不一样,任务也不一样。数据很难合起来用。

Open X-Embodiment 做的是把很多机器人、很多任务的数据统一起来。RT-X / Octo 则在这种跨机器人数据上训练 generalist policy。

它解决了什么旧问题?

  • 旧问题:机器人数据分散,每个机器人各玩各的,模型难以规模化。
  • 它的答案:统一数据格式,训练跨机器人策略。

它留下了什么新问题?

  • 不同 embodiment 的动作空间很难统一。
  • 多机器人数据可以增加覆盖,但不自动带来物理理解。
  • direct policy 仍然可能学到数据里的表面相关性,而不是可迁移的世界动力学。

它和 DreamZero 的关系是什么?

DreamZero 也关心跨 embodiment,但它的切入角度不同:如果模型能预测 future video,再通过 visual future 对齐动作,那么跨机器人迁移可能更容易利用 video-only data。

也就是说,Open X 解决“数据怎么合”;DreamZero 进一步问“合起来的数据里,模型到底应该学 direct action mapping,还是学 world-action dynamics?”

#GR-1:DreamZero 最接近的前身之一

代表工作: GR-1, Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation

GR-1 非常关键,因为它已经把“视频生成预训练”和“机器人动作预测”放到了一起。

它的直觉是:视频里有大量时序信息。一个学过视频生成的模型,可能更懂物体运动、手和物体交互、任务阶段变化。于是用视频生成预训练来帮助机器人操作。

它解决了什么旧问题?

  • 旧问题:机器人数据少,纯机器人数据训练的策略泛化有限。
  • GR-1 的答案:用大规模视频生成预训练提供时序视觉先验,同时预测未来图像和动作。

它留下了什么新问题?

  • 它更像“视频预训练增强的机器人 policy”。
  • 它还没有把 WAM 明确上升为“zero-shot policy”范式。
  • 它对真实开放任务、新环境、新 embodiment 的系统性证明没有 DreamZero 那么激进。

它和 DreamZero 的关系是什么?

如果要找 DreamZero 最近的亲戚,GR-1 很可能是其中之一。

可以这样理解:

GR-1:视频生成预训练可以帮助机器人动作预测
DreamZero:视频-动作联合世界模型本身可以成为零样本策略

前者像是在说“视频生成是一个很好的辅助任务/预训练方式”;后者则说“视频生成式世界模型可以成为策略的主体”。


#3.5 把前置脉络串起来:每条线各自缺一块,DreamZero 试图补齐

到这里,我们可以把几条线的人话逻辑串起来:

脉络它抓住的关键它还缺什么DreamZero 怎么接上
Dreamer / MuZero / TD-MPC决策需要想象未来多数不是开放机器人 foundation policy用大视频模型做可泛化的物理想象
Diffusion Policy动作序列本身适合生成建模不显式预测动作后果动作和未来视频一起生成
UniPi / RoboDreamer未来视频可以作为计划视频和动作执行分离joint video-action generation
Genie / UniSim视频中可学交互世界action 不一定是真实机器人动作绑定到真实机器人 action space
RT-1 / RT-2 / Octo机器人需要语言理解和多任务泛化direct policy 缺少显式物理想象从 VLA 推向 WAM
GR-1视频生成预训练有助于机器人仍偏辅助/预训练范式明确提出 WAM = zero-shot policy

所以 DreamZero 不是凭空出现的。它像一个汇合点:

Dreamer 给它“想象未来”的思想,Diffusion Policy 给它“动作生成”的工具,UniPi/RoboDreamer 给它“视频即计划”的直觉,RT/Octo 给它“机器人 foundation model”的目标,GR-1 给它“视频预训练 + 动作预测”的近身前身。

DreamZero 真正的新表述是:

不要把世界模型、视频计划、动作策略拆成三个模块;能不能训练一个统一模型,同时想象未来和给出动作,并且直接作为 zero-shot policy?

#4. DreamZero 本身:它到底做了什么?

前面讲了很多铺垫,现在回到 DreamZero。先不要被论文里的公式吓到,我们先看它跑起来像什么。

#4.1 先用一张人话流程图看 DreamZero

DreamZero 的执行流程可以先理解成:

输入:当前相机画面 + 最近几帧历史 + 语言指令 + 机器人本体状态
        ↓
视频扩散模型开始“做一个短梦”
        ↓
同时生成两样东西:
1. 接下来几帧世界会怎样变化
2. 为了造成这些变化,机器人该执行哪些动作
        ↓
真正送到机器人控制器的是动作 chunk
        ↓
执行一小段后,机器人重新看真实世界
        ↓
用真实观察纠正下一次想象,再生成下一段

这里最容易误解的一点是:机器人不是在执行视频,机器人执行的是动作。未来视频更像模型同时给出的“我认为这些动作会造成什么结果”。它既帮助动作学习,也让我们能检查模型是不是朝正确方向想象。


#4.2 核心定义:World Action Model

DreamZero 定义的 WAM 是一种基础模型:它不是只预测动作,也不是只预测未来视频,而是对齐地预测未来视觉状态和动作轨迹

传统 VLA:

observation + language -> action

DreamZero / WAM:

observation history + language + proprioception -> future observations + actions

论文中的分解可以用人话理解成:

  1. 模型要想象:根据当前观测和语言,未来视觉状态应该怎么变;
  2. 模型也要知道:如果未来要这样变,机器人应该执行什么动作;
  3. 但实际训练时,它不是训练两个互不相干的模型,而是端到端联合训练,让视频和动作彼此配套。

这背后的直觉是:动作应该服务于一个想象出来的未来。如果模型想象“手抓住杯子并放到杯垫上”,对应动作就应该把手移动到杯子、抓取、搬运、释放。

#“视频和动作对齐”到底是什么意思?

可以把一条机器人数据想成两条同步记录:

画面:手靠近杯子 -> 夹爪碰到杯子 -> 杯子被抬起 -> 杯子放到杯垫上
动作:手往杯子方向移动 -> 夹爪闭合 -> 手向上移动 -> 手移动到杯垫并打开夹爪

所谓对齐,就是模型不能只学第一行,也不能只学第二行,而要学会两行之间的对应关系:

  • 哪个动作会让画面发生哪种变化;
  • 哪种画面变化通常需要哪类动作;
  • 动作发生的时间点要和画面变化的时间点匹配;
  • 如果未来视频里杯子被抬起来,动作里就应该出现夹爪闭合和上移动作;
  • 如果动作里夹爪没有闭合,未来视频里就不应该出现杯子被稳定拿起。

所以 WAM 的关键不是“多预测了一个视频”,而是让动作预测受到未来画面的约束,让未来画面也受到动作的约束。

#4.3 它是不是“先生成视频,再根据视频生成动作”?

不是严格的两阶段。

更准确地说,DreamZero 不是这样:

第一步:完整生成未来视频
第二步:把未来视频交给另一个模型
第三步:另一个模型根据视频反推动作

那更像 UniPi 这类 video planning 路线。

DreamZero 更像这样:

当前观测 + 指令 + 机器人状态
        ↓
共享的视频-动作生成过程
        ↓
未来视频  ⇄  动作

这里的 很关键。它表示视频和动作不是简单先后关系,而是在同一个生成过程中互相约束、共同成形。

用人的动作类比:你拿杯子时,不是先在脑子里完整播放一部电影,然后暂停电影,再逐帧计算关节怎么动。你更像是一边形成“手会靠近杯子、杯子会被拿起来”的未来想象,一边自然地产生“手该往哪里伸、夹爪什么时候闭合”的动作意图。

DreamZero 想学的就是这种绑定关系。

#4.4 那视频到底怎么帮助动作?

你的疑问非常关键:既然视频和动作是同时生成的,那视频是不是根本没有帮动作?

答案是:视频不是作为一个已经生成好的中间结果去喂给动作;视频是动作学习的物理对齐信号。

它的帮助主要发生在训练中。

训练数据里每一段轨迹都有:

当前观测 o_t
未来视频 o_{t:t+H}
真实动作 a_{t:t+H}
语言指令 c
机器人本体状态 q_t

比如一段真实数据是:

画面:夹爪靠近杯子 -> 夹住杯子 -> 杯子被抬起
动作:末端向杯子移动 -> gripper close -> 末端上升

模型训练时要同时还原这两件事:

  • 这段未来视频;
  • 这段动作。

所以它会慢慢学到:

如果未来视频里夹爪靠近杯子,动作大概率应该是末端朝杯子移动;
如果未来视频里杯子被抬起来,动作大概率包含夹爪闭合 + 末端上升;
如果未来视频里物体没有动,动作可能没有成功接触。

这个关联不是人工写规则写进去的,而是从大量真实“视频-动作配对”里学出来的。

因此,视频对动作的帮助不是:

视频生成完 -> 动作模型看视频 -> 输出动作

而是:

训练时,模型被迫同时解释“动作是什么”和“动作造成了什么视觉后果”

这样动作生成就不再只是模仿动作数字,而是被拉到一个物理合理的轨道上。

#4.5 Backbone:14B 视频扩散模型

DreamZero 使用预训练 image-to-video diffusion backbone,主要版本基于 Wan2.1-I2V-14B-480P。I2V 就是 image-to-video:给当前图像,让模型续写未来视频;14B 大致表示 140 亿参数级别。DreamZero 在这个视频模型上增加少量机器人相关模块:state encoder、action encoder、action decoder,同时保留视频模型的时空先验。

这很关键:DreamZero 不是从零训练机器人模型,而是借用视频生成模型已经学到的物理/时空先验,再让它对齐机器人动作。

所谓视频模型的先验,可以理解成:它已经从大量视频里见过“手会怎么动”“物体被推会怎么滑”“东西被拿起后画面会怎么变化”。这些知识未必精确到机器人控制,但比从零开始学物理变化要强很多。DreamZero 做的是把这种“看视频学来的世界直觉”接到真实机器人的动作空间上。

#4.6 训练目标:联合 denoise 视频和动作

训练上可以先理解为“联合去噪”:把未来视频和动作都打乱,再让模型一步步修回真实轨迹。论文技术上使用的是 flow matching:把干净的视频 latent 和动作加入噪声,然后训练模型预测从噪声到干净样本的速度方向。

如果这句话仍然抽象,可以把它理解成:训练时模型看到的是一团被打乱的“未来视频 + 动作草稿”,它要一步步把这团草稿修正成真实数据里的样子。

被打乱的视频草稿 + 被打乱的动作草稿
        ↓
模型一步步修正
        ↓
真实未来视频 + 真实动作轨迹

因为视频和动作是一起被打乱、一起被修正的,所以模型学到的不是孤立的动作,也不是孤立的视频,而是一整段“画面变化 + 对应动作”的配套方案。

这和普通 Diffusion Policy 的差别是:Diffusion Policy 只 denoise 动作;DreamZero 同时 denoise 未来世界和动作。

这带来的效果是:动作不是凭空生成的。模型在修正动作时,会同时参考它正在修正的未来画面;模型在修正未来画面时,也会受到动作轨迹的影响。比如它不能一边预测“夹爪没有闭合”,一边生成“杯子被稳稳拿起”的视频,因为这种组合在真实数据里是不一致的。

所以最准确的一句话是:

视频不一定是动作的前置输入,但它是动作学习的物理对齐信号。

#4.7 推理:生成未来视频和动作,然后闭环执行

DreamZero 的执行过程大致是:

  1. 输入当前视觉观测、语言指令、本体状态;
  2. 模型生成未来视频 chunk 和动作 chunk;
  3. 真正送到机器人控制器的是动作 chunk;
  4. 机器人执行动作 chunk 的一小段;
  5. 执行后真实摄像头返回新观测;
  6. 用真实观测替换模型预测的视频上下文;
  7. 再生成下一段。

这一步非常重要。纯视频自回归生成会误差累积,但机器人闭环执行可以不断用真实观测校正模型想象。

原因很简单:模型想象的未来不可能永远准确。杯子可能滑了一点,手可能没抓稳,桌面摩擦也可能和模型想的不一样。所以 DreamZero 不应该闭着眼把整段长计划执行完,而是执行一小段就重新看一眼真实世界。这样即使前一段有偏差,下一段也能及时纠正。

可以把它理解为:DreamZero 每次“做一个短梦”,执行一小段,然后睁眼看真实世界,再做下一个梦。

#4.8 实时性:从 14B 扩散模型到 7Hz 控制

14B 视频扩散模型本来很慢。DreamZero 报告通过一系列系统优化,把 naive 推理从约 5.7 秒/action chunk 加速到约 150ms/chunk,达到约 7Hz 闭环控制。

优化包括下面几类。这里不用记每个工程名词,只要知道它们都在减少扩散模型的等待时间、复用重复计算、让控制不要卡顿:

  • 异步 closed-loop execution:模型生成下一段动作时,机器人可以继续执行上一段动作,不必完全停下来等;
  • CFG parallelism:把生成时的条件/无条件分支并行算,减少等待;
  • DiT caching:相邻去噪步骤里有些计算很像,可以复用;
  • torch.compile / CUDA Graph:减少 PyTorch 和 GPU 调度开销;
  • quantization:用更低精度表示模型权重和激活,让推理更快;
  • scheduler/kernel 优化:让扩散采样和 attention 计算更高效;
  • action smoothing:把生成的动作轨迹变得更平滑,避免机器人抖动。

这说明 WAM 的一个现实瓶颈是:想象越强,计算越贵;机器人控制又要求实时。

#4.9 数据哲学:diversity over repetition

DreamZero 在 AgiBot G1 机器人平台上收集了约 500 小时 teleoperation data,也就是人远程操控机器人得到的数据;7193 个 episodes,也就是 7193 条完整任务轨迹;覆盖 22 个真实环境。它强调的不是每个任务大量重复,而是多样、非重复、长尾行为。

这和传统模仿学习很不一样。传统 BC 往往需要每个任务很多 demonstration,而 DreamZero 希望通过视频模型先验和 world-action joint modeling,从多样数据中学到可泛化的物理技能。

对 WAM 来说,多样性尤其重要,因为它不只是记住某个任务的固定动作,而是要学“动作和世界变化之间的通用关系”。如果数据里只有同一个杯子、同一个桌子、同一个动作重复很多遍,模型容易记住套路;如果数据里有不同物体、不同环境、不同失败和修正过程,模型更可能学到可迁移的物理变化规律。

#4.10 主要结果

论文报告 DreamZero 在真实机器人 seen/unseen tasks 上显著超过 GR00T N1.6、π0.5 等 VLA baseline。这里的 task progress 可以粗略理解为“任务完成进度”,不完全等同于每次完整成功率。几个关键结论:

  • 在 AgiBot seen tasks 上,DreamZero 平均 task progress 约 62.2%,显著高于 best pretrained VLA baseline 约 27.4%。
  • 在 AgiBot unseen tasks 上,DreamZero 约 39.5%,pretrained VLA baseline 约 16.3%。
  • 在 DROID-Franka unseen tasks 上,DreamZero 也优于 pretrained VLA baseline。
  • task-specific post-training 后,DreamZero 在 shirt folding、fruit packing、table bussing 等任务上平均约 90.5%。
  • 使用人类或其他机器人 video-only demos,可让 unseen task performance 相对提升超过 42%。
  • 仅 30 分钟 play data 可适配新机器人 YAM,并保留一定 zero-shot generalization。

这些数字想说明的不是“DreamZero 每个任务都解决了”,而是:在新环境、新任务、少量迁移数据下,WAM 的物理想象先验确实给机器人策略带来了额外泛化能力。

#4.11 DreamZero 的关键洞察:失败常来自“想象错”,不是“动作头不会动”

论文中一个很重要的观察是:多数失败来自 video generation errors,而不是 action prediction errors。也就是说,DreamZero 往往会忠实执行它想象出来的轨迹;如果想象错了,动作也会跟着错。

这其实也反过来说明了 DreamZero 的视频-动作对齐是有效的:动作确实跟着想象走。问题在于,一旦“想象的未来”本身错了,对齐得越好,机器人反而越会认真执行这个错误未来。

所以 WAM 的核心风险不是“不会输出动作”,而是“会生成 plausible but wrong future”。后续需要研究:

  • 什么时候相信想象?
  • 如何估计想象的不确定性?
  • 如何发现 hallucinated future?
  • 什么时候重新观察和重新规划?

#5. DreamZero 之后:WAM 方向怎么展开?

先强调一个判断:DreamZero 是 2026 年 2 月的新工作,所以所谓“后续工作”还不能理解成已经形成稳定 citation graph 的成熟流派。更准确地说,2026 年 3–5 月出现的一批论文,是围绕 DreamZero 暴露出的几个问题快速展开的同期/后续趋势信号

DreamZero 证明了一件事:视频世界模型可以直接变成机器人策略。

但它立刻带来一串新问题:

  1. 这么大的视频模型太慢,能不能更轻?
  2. 机器人动作是低维数值,视频模型是图像 token,二者怎么对齐?
  3. RGB 视频很重,能不能预测更有用的几何、物体、接触、价值图?
  4. 模型想象的未来可能是错的,机器人什么时候该相信它?
  5. 如果 world model 能预测未来,能不能拿它当模拟器、评测器、数据生成器?

你可以把 DreamZero 之后的工作理解成:大家不是在重复“视频模型能控制机器人”,而是在补 DreamZero 暴露出的工程和科学缺口。


#5.1 第一类后续:效率化 —— “会做梦还不够,梦得太慢机器人等不起”

DreamZero 的一个现实问题是:它用的是 14B 级视频扩散模型。视频扩散模型很强,但天然很慢。人看一段视频可以慢慢生成,机器人控制不行。机器人要闭环执行,必须频繁观察、决策、动作。

所以后续第一类工作问的是:

能不能保留 WAM 的“物理想象能力”,但不要每次都完整生成昂贵的未来视频?

#GigaWorld-Policy:把中心从“生成视频”拉回“生成动作”

论文: GigaWorld-Policy: An Efficient Action-Centered World--Action Model,arXiv:2603.17240。

这个工作可以用一句话理解:

DreamZero 太像“为了控制而生成视频”,GigaWorld-Policy 更想做“为了控制而利用世界模型”。

它针对的是 DreamZero 类模型的成本问题。DreamZero 的思想是联合生成 future video 和 action,但如果每次都认真生成高质量视频,会非常耗算力。GigaWorld-Policy 于是强调 action-centered:动作预测是核心,世界建模为动作服务。

更具体地说,它不是完全放弃世界模型,而是把“预测未来世界”从主菜变成配菜。DreamZero 每次都像认真画出一段未来视频;GigaWorld-Policy 更像让模型在内部保留一个压缩的未来判断,但最终优化重点放在“下一段动作是否好用”。

DreamZero:显式未来视频 + 动作,视频很重要,也很贵
GigaWorld-Policy:动作是主输出,世界建模主要服务动作,目标是更快控制
Diffusion Policy:主要只生成动作,通常没有明确的 world-model 约束

所以它真正问的是:不把梦完整画出来,机器人还能不能借到“做梦”的好处?

从方法抓手上看,action-centered 通常意味着:训练和推理的主要优化目标围绕动作质量展开,世界预测更多作为内部约束或辅助信号,而不是每次都生成一段供人观看的完整视频。

小白类比:

  • DreamZero 像一个人做决定前,在脑子里播放一段高清电影;
  • GigaWorld-Policy 更像一个人只抓住关键画面和动作后果,不一定要把每一帧都想清楚。

它在解决 DreamZero 的什么问题?

  • DreamZero 的视频生成太重;
  • 控制需要低延迟;
  • 真正执行时,动作质量比视频观感更重要。

它推动了什么新问题?

如果减少视频生成,模型还剩多少 world understanding?也就是说:

视频生成到底是 WAM 能力的来源,还是训练时的辅助脚手架?

这会引出一个很基础的问题:WAM 的“世界模型能力”应该显式表现为视频,还是隐式存在于动作预测 latent 中?

#Being-H0.7:从显式视频走向 latent world-action model

论文: Being-H0.7: A Latent World-Action Model from Egocentric Videos,arXiv:2605.00078。

Being-H0.7 的关键词是 latent。它代表另一种方向:不要执着于把未来 RGB 图像完整生成出来,而是在 latent space 里保留对未来有用的信息。

它题目里的 egocentric videos 指第一视角视频,比如人头戴相机、胸前相机或手边相机拍到的“我正在操作世界”的视频。它们未必有机器人动作标签,但有大量手-物体交互经验:什么时候接触,物体如何移动,任务分几个阶段,哪些动作会让物体状态改变。

这里的 latent 可能不是神秘黑盒,而是某种压缩操作笔记:手和物体的相对运动、接触时刻、任务阶段、物体状态变化。它不一定告诉你每个像素会怎样,但会保留“为了完成任务,世界里哪些关键东西会变”。

从“人类第一视角视频”接到“机器人动作”的桥,通常不会是直接模仿人手关节,而是先学这种中间层:物体如何被接触、如何移动、任务阶段如何推进,再把它翻译到机器人自己的动作空间。

小白类比:

当你准备拿杯子时,你脑子里不一定真的渲染出一段高清 4K 视频。你可能只是有一个压缩计划:

手靠近杯子 -> 夹住杯身 -> 抬起 -> 移到目标位置 -> 放下

这就是 latent future:不是完整画面,而是对行动有用的压缩未来。

和 DreamZero 的差异可以这样理解:DreamZero 更像“机器人看当前画面,想象未来视频和动作”;Being-H0.7 更像“先从大量人类第一视角视频里学会操作的压缩规律,再想办法迁移到机器人”。

它在解决 DreamZero 的什么问题?

  • RGB 未来视频太贵;
  • 很多像素细节对控制没用;
  • egocentric video 里有丰富人类动作经验,但直接转成机器人视频/动作很难。

它推动了什么新问题?

latent 表示更高效,但不如视频可解释。于是新问题变成:

我们如何知道 latent world model 真的学到了物理未来,而不是学到了一些数据捷径?

这会推动后续的可解释性、验证器和 benchmark。

#Unified 4D World Action Modeling:机器人不是活在 2D 图片里,而是活在 3D/4D 世界里

论文: Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising,arXiv:2604.26694。

DreamZero 主要继承视频模型,所以自然从 2D 视频出发。但机器人操作不是纯 2D 问题。机器人需要知道:

  • 物体离我多远;
  • 夹爪有没有碰到物体;
  • 物体在三维空间中怎么移动;
  • 时间上接触顺序如何变化。

所以 4D WAM 这类工作把 WAM 推向 depth、3D、4D 表示。

这里的 4D 不要理解成玄学。最直白地说:3D 是空间,外加时间就是 4D。也就是不只预测“下一帧图片长什么样”,而是预测“三维空间里的物体随时间怎么运动”。

RGB 视频预测:画面里看起来夹爪碰到了杯子
4D 预测:夹爪在三维空间里距离杯子还有 2cm,所以其实没碰到

题目里的 asynchronous denoising 可以粗略理解为:不同模态不一定按同一个节奏生成。RGB、深度、3D 运动、动作的难度和时间尺度不同,模型可以用不同步的方式去噪,而不是强行把所有东西当成同一种 token 一起生成。

小白类比:

只看单张照片,你可能看不出杯子和手的真实距离;但机器人要抓杯子,距离差一点就抓空。对机器人来说,世界不是“图片”,而是“随时间变化的三维场景”。

它在解决 DreamZero 的什么问题?

  • 2D RGB 对空间和接触表达不足;
  • 单纯视频可能看起来合理,但几何上不可执行;
  • 机器人需要深度、位姿、接触和时间一致性。

它推动了什么新问题?

引入 3D/4D 后,模型更贴近控制,但数据、标注、训练和推理都会更复杂。后续要回答:

到底多少几何信息是必要的?RGB、depth、point cloud、scene flow、4D representation 应该怎么组合?


#5.2 第二类后续:动作表示 —— “视频模型到底怎样理解机器人动作?”

DreamZero 里有一个底层难题:视频模型擅长处理图像 token,但机器人动作通常是数字。

例如一个动作可能是:

末端执行器 x +0.02, y -0.01, z +0.00, gripper close

对人来说这已经很抽象,对视频模型来说更是外来语言。视频模型天然理解的是像素、运动、形状、光流,而不是关节角表格。

所以后续第二类工作问的是:

能不能把机器人动作翻译成视频模型更容易理解的形式?

#Action Images:把动作画成“图像”给视频模型看

论文: Action Images: End-to-End Policy Learning via Multiview Video Generation,arXiv:2604.06168。

这篇的想法非常直观:既然视频模型擅长看图,那就把动作也变成图。

比如机器人末端未来要走一条轨迹,可以把这条轨迹投影到摄像头视角里,画成 heatmap / action image。这样动作不再是一串抽象数字,而是一种视觉结构。

更具体一点:机器人末端未来 1 秒要经过几个 3D 位置,可以把这些点投影到相机画面上,形成一条彩色轨迹;颜色可以表示时间,亮度可以表示置信度,另一个通道可以表示夹爪开合。这样视频模型看到的不是一串 [0.02, -0.01, 0.00] 数字,而是在图像上直接看到“夹爪应该沿这条路径靠近杯子”。

小白类比:

如果我只告诉你“手往 x 方向移动 3cm,z 方向下降 1cm”,你可能没感觉;但如果我在图片上画一条箭头,你立刻知道手要往哪走。

它在解决 DreamZero 的什么问题?

  • 低维动作 token 和视频 token 不好对齐;
  • 多视角下动作的空间含义更清楚;
  • 把动作视觉化后,可以更充分利用视频 backbone。

它推动了什么新问题?

动作图像很直观,但不是所有动作都容易画出来。比如力、触觉、夹爪力度、关节冗余该怎么表示?这会引出 action representation 的系统研究。

#Multi-View Video Diffusion Policy:单视角不够,多视角更接近真实空间

论文: Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model,arXiv:2604.03181。

这类工作强调多视角。原因很简单:单个摄像头会遮挡,会丢失深度,会误判接触。

多视角方法的核心不是简单多装几个摄像头,而是让模型把不同视角里的同一个物体、同一只夹爪、同一次接触对齐起来。正面看不清深度,侧面补深度;一个视角被手挡住,另一个视角还能看到物体。这样模型生成动作时,不是根据单张照片猜距离,而是根据多个视角共同判断 3D 关系。

Multi-view:用多个 2D 视角互相校正空间判断
4D WAM:进一步想直接建模随时间变化的 3D/4D 世界状态

比如从正面看,夹爪好像碰到了杯子;但侧面看,可能还差 2 厘米。机器人控制里,这 2 厘米就是成功和失败的区别。

它在解决 DreamZero 的什么问题?

  • 单视角 RGB 对 3D 操作不够可靠;
  • 接触和遮挡需要多视角信息;
  • 多视角可以让视频-动作模型形成更稳定的空间理解。

它推动了什么新问题?

多视角带来更强信息,也带来更高成本:摄像头布局、视角同步、跨视角 attention、部署复杂度都会上升。

#AIM:不要只预测“会发生什么”,还要知道“哪里值得操作”

论文: AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps,arXiv:2604.11135。

AIM 引入 spatial value maps,可以理解成给图像上的区域打分:哪里和任务更相关,哪里更值得操作。

Spatial value map 可以想成一张叠在图像上的“任务进度热力图”。如果任务是拿杯子,杯子边缘、杯柄、夹爪即将接触的位置会亮;桌面背景、无关物体会暗。模型不只是问“未来画面会怎样”,还会问“画面里哪些位置能让任务更接近成功”。

当前图像 + 指令
-> 模型预测哪些区域值得操作
-> 动作生成时优先朝高价值区域移动
-> 未来视频预测也更关注这些区域的变化

这和 DreamZero 的区别在于:DreamZero 的未来视频可能把背景、光照、纹理都认真生成出来;AIM 类方法提醒我们,机器人真正关心的不是整张图都逼真,而是任务相关区域有没有预测对。

小白类比:

如果任务是“拿起杯子”,人不会平均看整张桌子,而会把注意力放在杯子、杯柄、夹爪路径这些区域。Spatial value map 就像在图上标出:

这里重要,这里可以抓,这里会影响任务进度

它在解决 DreamZero 的什么问题?

  • 纯视频预测可能浪费容量在背景纹理;
  • 控制需要知道任务相关区域;
  • WAM 需要把“意图”落到空间位置上。

它推动了什么新问题?

如果引入 value map,就会问:value 从哪里来?是人工标注、自动从轨迹推断,还是由 reward/task progress 学出来?这会把 WAM 和 value learning / affordance learning 连接起来。


#5.3 第三类后续:可信度与鲁棒性 —— “想象很强,但什么时候不能信?”

DreamZero 最重要的后续问题之一是 trust。

因为 WAM 生成的未来可能看起来很合理,但真实世界不一定会那样发展。对文本模型来说,幻觉一句话可能只是回答错;对机器人来说,幻觉一个未来可能导致碰撞、掉落、损坏。

所以这一类工作问的是:

WAM 什么时候该继续执行自己的想象?什么时候应该停下来重新看、重新规划?

#When to Trust Imagination:给 WAM 加一个“怀疑自己”的机制

论文: When to Trust Imagination: Adaptive Action Execution for World Action Models,arXiv:2605.06222。

这篇工作题目本身就很人话:什么时候相信想象?

DreamZero 的闭环执行通常是一段一段生成 action chunk。但问题是,每一段该执行多长?如果模型刚开始想对了,后面环境变化了,还继续执行就危险。

这类方法的核心思路可以理解成:

模型想象一个未来
-> 机器人执行一小段
-> 观察真实世界
-> 比较真实世界和想象是否一致
-> 一致就继续,不一致就重新规划

小白类比:

你走路时脑子里预测“下一步地面是平的”。如果踩下去发现地面是软的或有坑,你不会继续按原计划走,而会立刻调整。

它在解决 DreamZero 的什么问题?

  • WAM 可能 hallucinate future;
  • 固定执行 action chunk 不够安全;
  • 需要根据真实反馈自适应 replanning。

它推动了什么新问题?

要比较 imagined future 和 real observation,需要定义“一致”是什么。可以拆成几层:

  • 像素一致:画面是不是差不多;
  • 物体一致:目标物体位置是否和想象一致;
  • 接触一致:夹爪是否真的碰到/抓住了物体;
  • 任务一致:任务进度是否真的往前走;
  • 风险一致:是否出现了模型没预料到的碰撞、滑落、遮挡。

这些都会影响 verifier 设计。

#Do World Action Models Generalize Better than VLAs?:别只看 demo,要系统测鲁棒性

论文: Do World Action Models Generalize Better than VLAs? A Robustness Study,arXiv:2603.22078。

DreamZero 说 WAM 比 VLA 泛化更好。但科学上不能只看一个系统的 demo 和结果,还要系统问:

  • 换背景还行吗?
  • 换物体还行吗?
  • 换视角还行吗?
  • 加干扰物还行吗?
  • 指令轻微变化还行吗?
  • 换机器人还行吗?

这类 robustness study 的价值在于,它不是提出一个更炫的模型,而是帮社区弄清楚:WAM 到底强在哪里,弱在哪里。

它更像给 WAM 降温:逼着社区回答“WAM 到底在哪些扰动下真比 VLA 强,哪些地方只是 demo 好看”。如果没有这种研究,大家很容易把 DreamZero 的几个成功案例误解成普遍规律。

它在解决 DreamZero 的什么问题?

  • DreamZero 的强结果需要独立评估;
  • WAM 和 VLA 的优势边界不清楚;
  • 需要知道 WAM 是真的学到物理,还是只在某些数据分布下更好。

它推动了什么新问题?

如果发现 WAM 在某些扰动下不如 VLA,就说明未来可能不是 WAM 替代 VLA,而是二者分工:

VLA:语义理解、任务规划、常识
WAM:物理预测、短期动作、接触操作
Verifier:安全和可信度判断

#5.4 第四类后续:WAM as simulator / evaluator —— “既然能想象未来,能不能当模拟器用?”

如果一个 WAM 能预测机器人执行动作后的未来,那么它除了做 policy,还有两个自然用途:

  1. 当数据生成器:生成更多训练轨迹;
  2. 当评测器:不用真实机器人,每个 policy 先在 world model 里跑一遍。

这听起来很美,但风险也很大:如果 world model 自己错了,它可能会奖励错误 policy,甚至让 policy 学会利用模型漏洞。

#dWorldEval:用扩散 world model 做可扩展机器人策略评估

论文: dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model,arXiv:2604.22152。

这篇代表的是 evaluator 方向:用 discrete diffusion world model 作为 policy evaluation proxy。

这里的 discrete diffusion 可以暂时理解成:不是直接在连续像素上生成未来,而是把未来状态编码成离散 token,再用扩散式方法生成这些 token。离散 token 的好处是更像语言模型里的“词”,更容易做大规模生成、缓存和评分;但技术细节可以先放一边,关键是它想让 world model 扮演“便宜评测场”的角色。

小白类比:

真实机器人评测像真的开车上路考试,成本高、风险高。world model evaluator 像一个驾驶模拟器:先在模拟器里看你开得怎么样。

但关键问题是:这个模拟器的评分和真实上路表现一致吗?

一个典型流程是:

给定一个 policy
-> 让 policy 在真实初始场景上输出动作
-> world model 根据动作生成未来结果
-> evaluator 判断任务是否完成、是否失败、进度多少
-> 用这个结果近似真实机器人评测

最大风险是“模拟器偏心”:如果 world model 本身不懂某种失败,比如夹爪其实会打滑,但模型总是假设能抓住,那么它就会高估一些现实中会失败的 policy。

它在解决 DreamZero 的什么问题?

  • 真实机器人评测昂贵;
  • policy 迭代需要大量测试;
  • 生成式 world model 可能提供更便宜的评估。

它推动了什么新问题?

最重要的是 ranking fidelity:

如果 world model 认为 A policy 比 B policy 好,真实世界里 A 真的更好吗?

这会变成一个非常重要的 benchmark/research direction。

#MultiWorld:从单机器人走向多 agent、多视角世界模型

论文: MultiWorld: Scalable Multi-Agent Multi-View Video World Models,arXiv:2604.18564。

MultiWorld 代表另一种扩展:世界里不一定只有一个机器人、一只手、一个视角。真实环境可能有多个人、多机器人、多摄像头、多物体交互。

比如一个厨房场景里,一个机器人在收盘子,另一个人在旁边移动杯子,桌上还有多个物体互相遮挡。单机器人 WAM 只需要预测“我做这个动作后杯子怎么动”;MultiWorld 类模型则要预测“我动、别人也动、多个视角看到的世界还要一致”。这更接近真实家庭/工厂环境。

DreamZero 主要证明“一个机器人可以用 WAM 控制自己”;MultiWorld 往前问的是:如果世界里还有其他主动体,WAM 还能不能预测未来?这时未来不再只由自己的动作决定,还取决于别人要做什么。

它在解决 DreamZero 的什么问题?

  • DreamZero 更偏单机器人真实操作;
  • 真实具身智能需要多主体交互;
  • 多视角世界模型可以支持更复杂的场景理解和仿真。

它推动了什么新问题?

多 agent 世界模型会遇到更严重的组合爆炸:每个 agent 都有自己的动作和意图,世界未来不再由单一机器人决定。这会把 WAM 推向 multi-agent world modeling。


#5.5 把后续工作串起来:DreamZero 之后不是一条线,而是五个补丁方向

再次强调:下面这些方向还属于早期趋势信号,不是已经被社区完全验证的成熟谱系。但它们共同说明,DreamZero 把问题打开后,大家很自然地开始补五个缺口:

DreamZero 暴露的问题后续方向代表工作人话解释
太慢太重高效/latent/action-centered WAMGigaWorld-Policy, Being-H0.7不一定把未来视频完整画出来,而是保留能帮助选动作的压缩未来表示
动作和视频不好对齐Action representationAction Images, MV-VDP把动作翻译成视频模型看得懂的空间/图像语言
RGB 不够控制相关Geometry/value/object-aware WAMUnified 4D WAM, AIM抓东西失败常常不是因为 RGB 不像,而是深度、接触、可抓区域预测错了
想象可能是错的Trust / robustness / replanningWhen to Trust Imagination, robustness study模型要知道什么时候该怀疑自己的想象
世界模型可否复用Simulator / evaluator / data enginedWorldEval, MultiWorld会想象未来的模型也许能当模拟器和评测器,但必须验证它的排名是否和真实世界一致

所以,DreamZero 后续的核心不是“再做一个 DreamZero”,而是回答:

WAM 如何变得更快、更可信、更懂动作、更懂几何、更能被评估和复用?

#6. 用一张表看 DreamZero 前后脉络

阶段代表工作核心问题方法DreamZero 如何继承/推进
Model-based RLDreamer, MuZero, TD-MPC如何用模型想象未来提升决策latent dynamics, planning, imagined rollout继承“想象未来有用”,但转向大规模视频先验和真实机器人 zero-shot
动作生成策略Diffusion Policy如何表达多峰连续动作diffusion over action chunks继承 action chunk generation,但把动作和未来视频联合建模
视频生成规划UniPi, RoboDreamer如何把语言目标变成未来视觉计划text/image-conditioned video generation + inverse dynamics从“先视频后动作”推进到 joint video-action model
交互世界模型Genie, Genie2, UniSim如何从视频学可交互世界latent action, action-conditioned generation从抽象交互世界推进到真实机器人动作空间
机器人基础策略RT-1, RT-2, RT-X, Octo如何用大规模机器人数据训练通用策略VLA / direct policy批评 direct VLA 缺少物理动力学先验,引入 WAM
近亲前身GR-1视频生成预训练如何帮助机器人操作future image + action predictionDreamZero 更明确提出 WAM = zero-shot policy
DreamZeroWorld Action Models are Zero-shot Policies世界模型能否直接成为 zero-shot policy14B video diffusion + joint video/action flow matching + closed-loop control锚点工作
后续效率化GigaWorld-Policy, Being-H0.7WAM 太慢太重action-centered / latent WAM从显式 RGB 想象转向高效控制相关想象
后续表示Action Images, MV-VDP, AIM动作如何进入视频模型action images, multi-view, spatial value maps探索更适合视频模型的 action/world representation
后续可信度When to Trust Imagination, robustness studyWAM 什么时候可靠adaptive execution, robustness benchmark从“能想象”走向“知道何时相信想象”
后续仿真评估dWorldEval, MultiWorldworld model 能否评估/生成数据diffusion world evaluator, multi-agent video world modelWAM 从 policy 扩展为数据飞轮和评测工具

#7. DreamZero 真正打开的科研问题

#7.1 World model 应该预测 RGB,还是预测 control-relevant state?

DreamZero 预测未来视频,这很直观,也方便继承视频扩散模型。但机器人控制真正需要的可能不是每个像素,而是:

  • 目标物体在哪里;
  • 接触是否发生;
  • 夹爪和物体的相对关系;
  • 物体是否稳定;
  • 任务进度是否增加;
  • 哪些区域可操作;
  • 哪些未来是危险的。

所以一个很好的研究问题是:World model 到底应该预测什么,才能最帮助 action?

候选方向:semantic mask dynamics、object slots、contact map、affordance map、spatial value map、depth/point cloud、4D scene flow。

最小可做版本不一定要训练大视频模型。可以在现有机器人数据上比较几种辅助预测目标:RGB future、mask future、contact future、object trajectory future,看哪一种最能提升 policy 泛化。这样问题会更机制化:不是问“哪个模型更大”,而是问“哪种未来信息对控制最有用”。

#7.2 Action representation 是 WAM 的底层关键

动作如果只是低维 token,视频模型不一定容易理解。把动作变成图像、轨迹、flow、keypoint、contact map,也许更能对齐视频先验。

这可以形成一个很清晰的研究题:

What is the Right Action Token for Video World Models?

实验可以比较不同 action representation 对 zero-shot environment、cross-view、cross-embodiment、long-horizon manipulation 的影响。

最小可做版本可以固定同一个 video backbone,只替换 action 表示方式:低维动作、2D trajectory heatmap、3D keypoint、object-relative action。这样如果性能差异明显,就能说明“动作表示”本身是 WAM 能力的底层变量。

#7.3 什么时候相信想象?

DreamZero 的失败常来自 imagined future 错误。因此后续必须有 verifier / uncertainty / replanning 机制。

一个 WAM 控制系统不应该固定执行 K 步动作,而应该动态判断:

  • imagined future 和真实观测是否一致;
  • 当前动作是否偏离任务进度;
  • 世界模型置信度是否下降;
  • 是否进入 OOD 状态;
  • 是否需要重新规划。

这非常适合做低成本科研,因为不一定要训练 14B WAM,可以在已有 policy/world model 上加 verifier。

最小版本甚至可以做一个二分类器:输入 imagined frame 和 executed frame,判断是否需要 replan。再进一步可以预测风险分数、任务进度偏差、接触是否失败。

#7.4 WAM 能不能成为 model-based RL 的 foundation dynamics?

Dreamer 是小模型 task-specific world model。DreamZero 是大规模预训练 world-action model。自然问题是:能不能用 foundation WAM 做 model-based RL?

如果 DreamZero 是“会做梦并直接行动”,WAM + MBRL 就是“先在梦里试很多种行动,再挑一个最可能成功的”。这和你关心的 model-based RL 很接近:关键不是模型能不能做梦,而是梦能不能用来安全改进策略。

挑战是 model exploitation:policy 可能利用 world model 的漏洞,在想象里成功、真实中失败。

需要研究:

  • imagined rollout 的可信度筛选;
  • uncertainty penalty;
  • real-vs-imagined discriminator;
  • reward / value 与生成视频对齐;
  • hallucination control;
  • offline RL + WAM + small real-world correction。

#7.5 Human video 到 robot policy 的 embodiment gap

DreamZero 展示 video-only human/robot demos 能提升 unseen tasks,但这还只是早期信号。真正难的是:人类手、机器人夹爪、双臂机器人、不同关节结构之间如何迁移?

可能要提取更抽象的中间表示:

  • hand-object contact sequence;
  • object trajectory;
  • task phase;
  • affordance region;
  • subgoal state;
  • object-centric manipulation graph。

这和“从互联网视频学习机器人技能”的长期愿景直接相关。

这里最核心的不是模仿人的手指动作,而是提取“物体发生了什么变化”。比如人手和夹爪完全不同,但“杯子从桌面移动到碗旁边”这个 object trajectory 是可以共享的。


#8. 我最推荐 wenjun 关注的 4 个切入点

如果按“低成本、贡献清晰、适合入门”的角度排序,我会这样看:

  1. 最推荐入手:可信想象 / verifier —— 方法和 benchmark 都容易做出清晰贡献;
  2. 机制性最强:action representation —— 能回答 WAM 底层变量是什么;
  3. 中等工程量:control-relevant prediction —— 更像 representation study;
  4. benchmark 型:evaluation fidelity —— 社区需要,但要设计好真实评测闭环。

#8.1 可信想象:WAM verifier / adaptive replanning

核心问题:世界模型会想象,但机器人需要知道什么时候不要相信想象。

可以做一个轻量 verifier:输入当前观测、imagined future、action sequence、语言目标和执行后的真实观测,输出 continue/replan、risk score、task progress estimate。

优点:

  • 不需要从零训练大 WAM;
  • 能直接接 DreamZero 的局限;
  • 贡献清楚;
  • 可以做 benchmark + method。

可能产出形式:一个 verifier 方法 + 一套 imagined-vs-real mismatch benchmark,证明它能减少 WAM 的错误执行。

#8.2 Action representation for video world models

核心问题:机器人动作应该怎样表示,才能让视频模型真正理解?

可以系统比较:低维 action token、action image、trajectory heatmap、contact map、3D keypoint/action field、object-relative action。

优点:

  • 问题基础;
  • 不只是刷性能;
  • insight 强;
  • 对 WAM 后续都会有参考价值。

可能产出形式:一篇 ablation-heavy paper,系统比较不同 action token 如何影响泛化、接触成功率和跨视角稳定性。

#8.3 Control-relevant world prediction

核心问题:机器人 world model 是否应该预测 RGB?还是应该预测 mask/contact/affordance/value?

可以设计多目标 world model,比较不同预测目标对 policy performance 和泛化的影响。

优点:

  • 资源需求比训练 14B 视频模型低;
  • 很容易形成机制解释;
  • 与 DreamZero 后续 latent/object-centric/geometry-aware 趋势一致。

可能产出形式:一篇 representation study,证明某类未来预测目标比 RGB 更能提升控制泛化。

#8.4 WAM evaluation fidelity

核心问题:如果用生成式 world model 评估 policy,预测出来的 policy 排名是否可信?

可以收集多个 policy 的真实表现和 WAM 预测表现,比较 ranking correlation、failure mode coverage、OOD detection、contact error、long-horizon drift。

优点:

  • 社区很需要;
  • 不需要造最大模型;
  • benchmark 型论文可行;
  • 能连接 model-based RL 和 robot evaluation。

可能产出形式:一个 diagnostic suite / benchmark,衡量 world model 预测的 policy 排名和真实机器人排名是否一致。


#9. 对 DreamZero 的总体判断

DreamZero 不是终点,而是一个范式节点。

它之前,机器人基础模型大多在问:

如何让 VLM 输出动作?

DreamZero 开始问:

如果模型能想象世界未来,它能不能直接成为策略?

它之后,问题会继续推进为:

什么样的想象对控制真正有用?什么样的动作表示能和视频先验对齐?什么时候该相信想象?如何把 WAM 变成可训练、可评估、可闭环改进的机器人系统?

我的判断是:WAM 的长期价值不在于“生成一段好看的未来视频”,而在于它可能成为机器人智能里的 System 1 physical imagination:快速、直觉式地预测物理后果并给出动作。更高层的语言规划、任务分解、长期记忆和安全验证,则可能由另一个 System 2 planner / verifier 来完成。

对你来说,如果想做科研,不建议直接卷“训练一个更大的 DreamZero”。更好的切入点是围绕 DreamZero 暴露出的基础问题:

  • 可信想象
  • 动作表示
  • 控制相关世界状态
  • WAM 评估可信度
  • foundation world model + model-based RL 的 hallucination control

这些问题更基础、更机制性,也更符合你长期关注的 model-based RL、latent reasoning、agent 训练范式和能力形成机制。


#10. 代表工作清单

下面只列本文主线中反复出现的代表工作,不是完整 bibliography。

#DreamZero 本体

  • Ye et al., World Action Models are Zero-shot Policies, arXiv:2602.15922.

<https://arxiv.org/abs/2602.15922>

#前置脉络

  • Hafner et al., Dream to Control: Learning Behaviors by Latent Imagination, Dreamer.
  • Hafner et al., Mastering Diverse Domains through World Models, DreamerV3.
  • Schrittwieser et al., Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model, MuZero.
  • Hansen et al., Temporal Difference Learning for Model Predictive Control, TD-MPC.
  • Hansen et al., TD-MPC2: Scalable, Robust World Models for Continuous Control.
  • Chi et al., Diffusion Policy: Visuomotor Policy Learning via Action Diffusion.
  • Du et al., Learning Universal Policies via Text-Guided Video Generation, UniPi.
  • Bruce et al., Genie: Generative Interactive Environments.
  • Yang et al., UniSim: Learning Interactive Real-World Simulators.
  • Zhu et al., RoboDreamer: Learning Compositional World Models for Robot Imagination.
  • Brohan et al., RT-1: Robotics Transformer for Real-World Control at Scale.
  • Brohan et al., RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.
  • Open X-Embodiment / RT-X collaboration.
  • Octo Model Team, Octo: An Open-Source Generalist Robot Policy.
  • Wu et al., GR-1: Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation.

#DreamZero 之后/同期 WAM 方向

  • GigaWorld-Policy: An Efficient Action-Centered World--Action Model, arXiv:2603.17240.
  • Being-H0.7: A Latent World-Action Model from Egocentric Videos, arXiv:2605.00078.
  • Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising, arXiv:2604.26694.
  • Action Images: End-to-End Policy Learning via Multiview Video Generation, arXiv:2604.06168.
  • Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model, arXiv:2604.03181.
  • AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps, arXiv:2604.11135.
  • When to Trust Imagination: Adaptive Action Execution for World Action Models, arXiv:2605.06222.
  • Do World Action Models Generalize Better than VLAs? A Robustness Study, arXiv:2603.22078.
  • dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model, arXiv:2604.22152.
  • MultiWorld: Scalable Multi-Agent Multi-View Video World Models, arXiv:2604.18564.

#11. 最后一句话

DreamZero 最值得记住的不是某个具体指标,而是它把机器人策略学习的问题重新表述了:

机器人不是只需要“看懂指令然后输出动作”,而是需要在执行前形成一个可行动的未来想象;真正强的机器人 foundation model,可能会是 vision-language planner、world-action imagination、verifier 和 memory/RL 系统的组合。

这正是 WAM 方向从 DreamZero 往后最值得看的地方。