#以 DreamZero 为锚点看 World Action Model:从 Dreamer、视频生成规划到机器人零样本策略
一句话核心结论:DreamZero 的意义不只是“又一个机器人策略模型”,而是把机器人基础模型的核心问题从 VLA 的 vision-language → action 映射 推向 world-action model:让模型先学会想象世界如何随动作变化,再把这种想象直接转成可执行策略。
它站在 Dreamer/MuZero/TD-MPC 的 model-based RL、UniPi/Genie/RoboDreamer 的视频世界模型、RT-1/RT-2/Octo/GR-1 的机器人基础模型三条线交汇处。它真正提出的范式问题是:未来机器人策略到底应该是直接预测动作,还是应该联合预测未来世界和动作?
这篇报告会以 DreamZero 为锚点,按“之前的问题链 → DreamZero 做了什么 → 之后的工作如何沿着它展开 → 还能做什么科研”来讲。
阅读地图:如果你对这个方向完全陌生,可以按下面路线读:第 0 节先确认 DreamZero 指哪篇;第 1 节讲它为什么重要;第 2 节把容易吓人的术语翻译成人话;第 3 节讲 DreamZero 之前的四条脉络;第 4 节讲 DreamZero 本身,尤其是“视频和动作如何对齐”;第 5 节讲后续工作在补哪些坑;第 7–8 节回到可以做的科研问题。
#0. 先说明:DreamZero 到底是哪篇?
本报告中的 DreamZero 指:
- 论文: World Action Models are Zero-shot Policies
- arXiv: 2602.15922
- 项目页: <https://dreamzero0.github.io/>
- 代码: <https://github.com/dreamzero0/dreamzero>
- 时间: 2026 年 2 月
- 核心名词: World Action Model,简称 WAM
它的核心主张是:
一个预训练视频扩散模型,如果被改造成能联合预测未来视频和动作的 World Action Model,那么它不只是一个 world model,也可以直接作为 zero-shot robot policy。
换句话说,DreamZero 不是传统的:
当前图像 + 语言指令 -> 动作
而更接近:
当前视觉历史 + 语言指令 + 本体状态 -> 未来视觉轨迹 + 对应动作轨迹
它想把“想象未来”和“执行动作”合在一个模型里。
这里的“联合”不是简单多接一个动作头。更关键的是:模型在训练时同时看到“动作序列”和“动作造成的画面变化”,于是它学到一种对应关系——如果未来画面里手靠近杯子、夹住杯子、杯子被抬起,那么动作也应该是靠近、闭合夹爪、抬起,而不是随便输出一串数字。
#1. 为什么 DreamZero 这个点重要?
#1.1 VLA 很强,但它的短板是“物理动作泛化”
过去两三年,机器人基础模型的一条主线是 VLA:Vision-Language-Action model。典型思路是:用视觉语言模型的语义能力,再接一个动作头,让模型能根据图像和语言输出机器人动作。
这类模型的优势很明显:
- 能理解开放词汇物体;
- 能理解自然语言指令;
- 能把互联网视觉语言知识迁移到机器人;
- 能在大规模机器人数据上做多任务泛化。
但它也有一个很根本的问题:VLM 主要从静态图像/文本学到语义知识,不一定学到了物理世界如何随动作演化。
比如模型知道“鞋带是什么”“解开鞋带是什么意思”,但它不一定知道:
- 手应该先抓哪一段鞋带;
- 拉动后鞋带会怎么变形;
- 哪些动作会导致打结更紧;
- 接触和摩擦会怎样影响结果;
- 动作失败后视觉状态如何变化。
这就是 DreamZero 想解决的核心矛盾:机器人任务不只是语义理解,更是时空动力学理解。
#1.2 “世界模型”在 RL 里早就存在,但还没有自然变成机器人 foundation policy
Dreamer、MuZero、TD-MPC 这些工作早就证明:如果 agent 能学一个环境模型,并在模型里想象未来,决策会更高效。
但这些方法通常有几个特点:
- 依赖 reward;
- 依赖环境交互;
- 多数是任务内训练;
- 常在游戏、仿真控制 benchmark 上验证;
- 不直接处理开放语言任务和真实机器人长尾场景。
DreamZero 试图把这个思想推进到 foundation model 时代:世界模型不再只是小型 task-specific dynamics model,而是一个大规模视频扩散 backbone,带有从视频中学来的物理和时空先验。
#1.3 DreamZero 的新命题:视频模型能不能直接成为策略?
视频生成模型天然会“想象未来”。如果一个视频模型看到当前场景和指令,能生成“完成任务后的未来过程”,那它似乎已经有了某种计划。
问题是:好看的未来视频如何变成机器人动作?
比如视频里看起来只是“手把杯子拿起来”,但对机器人来说,这背后要回答很多具体问题:夹爪从哪个方向接近?什么时候闭合?闭合多紧?手腕要不要转?抬起时速度多快?如果这些动作细节和视频里的物体运动不匹配,视频再合理,机器人也执行不出来。
早期路线通常是:
视频模型生成未来图像 -> inverse dynamics / controller 反推动作 -> 执行
DreamZero 更进一步:
一个模型联合生成未来视频和动作,让动作与想象出来的未来对齐
这就是 WAM 的核心:world prediction 和 action prediction 不再分离。
#2. 先把几个容易吓人的词翻译成人话
在进入论文脉络前,先把这篇文章会反复出现的几个词讲清楚。你可以先不记英文,只记它们各自想解决的问题。
这些词大致分四类:
- 基本决策概念:world model、policy、zero-shot;
- 机器人基础模型:VLA、WAM、foundation policy;
- 生成模型机制:latent、diffusion、denoise;
- 动作与身体:inverse dynamics、action chunk、embodiment、proprioception。
#2.1 World model:脑子里的“世界会怎么变”的模型
World model 直译是世界模型。人话说,它就是一个预测器:
现在世界长这样 + 我做某个动作
-> 接下来世界大概会变成什么样
比如:
- 你推杯子,杯子会滑;
- 你夹住杯子再抬,杯子会离开桌面;
- 你没夹住就抬手,杯子不会动;
- 你推太猛,杯子可能倒。
机器人如果没有 world model,就像一个只会背动作表的人:看到“杯子”就伸手,但不一定知道伸手后会发生什么。DreamZero 关心的正是:机器人能不能拥有一种“物理想象力”。
#2.2 Policy:策略,就是“现在该怎么动”
Policy 不神秘,就是决策规则:
当前看到什么 + 当前目标是什么
-> 下一步动作是什么
传统机器人 policy 多数直接学:
图像 + 指令 -> 动作
DreamZero 想让 policy 不只是条件反射,而是带着未来想象:
图像 + 指令 -> 想象未来会怎样 -> 输出与这个未来一致的动作
#2.3 VLA:看图、听话、出动作的模型
VLA 是 Vision-Language-Action。拆开就是:
- Vision:看图;
- Language:听懂语言;
- Action:输出机器人动作。
VLA 的强项是语义理解。比如它知道“杯垫”“水果”“垃圾桶”是什么,也能理解“把红色杯子放到杯垫上”。
但 VLA 的短板是:它不一定真的懂物理过程。它可能知道杯子是什么,却不一定知道夹爪从哪个角度接近最稳、杯子滑动后该怎么修正、衣服被折叠时形状如何变化。
所以后面你看到 VLA,可以先把它理解成:语义脑比较强,但物理想象脑可能不够强。
#2.4 WAM:世界模型和动作模型绑在一起
WAM 是 World Action Model。它比普通 world model 多了动作,比普通 policy 多了未来世界。
普通 policy:
当前画面 -> 动作
普通 world model:
当前画面 + 动作 -> 未来画面
WAM 想做的是:
当前画面 + 指令
-> 未来世界会怎么变 + 为了让它这样变应该做什么动作
所以 WAM 的关键词不是“多输出一个视频”,而是:动作和未来世界要配套。
#2.5 Zero-shot policy:没针对这个任务再训练,也能直接试着做
Zero-shot 的意思是:模型没有针对当前这个具体任务再训练,就直接拿来执行。
比如模型训练时见过很多“拿东西、放东西、整理桌面”,但没有专门练过“把这个陌生杯子放到这个陌生杯垫上”。如果它仍然能根据指令和当前画面直接做,就叫 zero-shot policy。
DreamZero 标题里说 “World Action Models are Zero-shot Policies”,核心就是:如果 WAM 真能学到通用的“动作—世界变化”关系,它就不只是一个生成器,而可能在新任务上直接变成策略。
#2.6 Foundation policy:不是单任务小策略,而是可复用的大策略模型
Foundation model 在语言模型里指可迁移到很多任务的大模型。对应到机器人里,foundation policy 可以理解成:不是为一个杯子、一个桌子、一个动作训练的小策略,而是希望跨任务、跨场景、跨物体复用的大策略模型。
这也是为什么 DreamZero 重要:它不是只想解决某个固定任务,而是想问“视频世界模型能不能成为一种机器人基础策略”。
#2.7 Latent:压缩后的内部表示,不是完整画面
Latent 可以理解成模型脑子里的压缩笔记。
比如你看一张桌面照片,你不需要记住每个像素,也能记住:
杯子在左边,夹爪在右边,杯子可以被抓,目标位置在中间。
这就是一种 latent。它不是原始图像,但保留了对任务有用的信息。
所以“latent world model”可以先理解成:不画出完整未来视频,而是在脑子里保留一个压缩的未来状态。
#2.8 Diffusion / denoise:从一团乱草稿,慢慢修成合理结果
Diffusion model 可以用画画类比。模型一开始拿到的是一团噪声,像一张乱涂的草稿。然后它一步步修改:
一团乱噪声 -> 粗略轮廓 -> 更清楚的物体 -> 最终图像/动作
Denoise 就是“去噪”,也就是把乱草稿修干净。
在 DreamZero 里,模型不是只修视频,也不是只修动作,而是同时修:
被打乱的未来视频 + 被打乱的动作
-> 一套配套的未来视频 + 动作方案
#2.9 Inverse dynamics:从“发生了什么变化”反推“做了什么动作”
Inverse dynamics 直译是逆动力学。人话说,就是反推:
我看到杯子从桌上被拿起来
-> 那中间大概发生了什么动作?
-> 夹爪可能先靠近、闭合、然后上抬
UniPi 这类方法常见做法是先生成未来视频,再用 inverse dynamics 反推动作。DreamZero 则不想把这两步拆开,而是让未来视频和动作一起生成。
#2.10 Action chunk:一次不要只出一步,而是出一小段动作
机器人控制通常不是每次只输出一个瞬间动作,而是输出一小段动作序列,比如接下来 0.5 秒或 1 秒怎么动。这就叫 action chunk。
好处是动作更平滑,也更像人的连续动作。但风险是:如果这一小段想错了,执行太久就会偏。所以 DreamZero 会执行一小段后重新观察真实世界。
#2.11 Embodiment:机器人自己的身体形态
Embodiment 可以理解成“身体”。不同机器人身体不同:
- 有的是单臂;
- 有的是双臂;
- 有的是夹爪;
- 有的是灵巧手;
- 摄像头位置、关节数量、动作空间也不同。
同一个“拿杯子”的视频,人手能做,不代表夹爪机器人能用同样动作做。所以跨 embodiment 的核心难题是:同一个任务意图,如何换一具身体执行?
#2.12 Proprioception:机器人对自己身体状态的感知
Proprioception 可以理解成“本体感知”。人闭着眼也大概知道手在哪里,机器人也需要知道自己的关节角、夹爪开合、末端位置等。
DreamZero 输入里不只有相机画面和语言,也有机器人自己的身体状态。否则它只看画面,可能不知道自己的手现在到底在什么姿态。
#3. DreamZero 之前:这条线是怎么一步步走到 WAM 的?
这一节我们先不急着讲论文名。先用一个小白也能抓住的主线来理解:
机器人要完成任务,至少需要三种能力:
1. 知道目标是什么:比如“把杯子放到杯垫上”;
2. 知道世界会怎么变:如果手往左推,杯子会移动;如果夹爪没夹紧,杯子会掉;
3. 知道自己该怎么动:关节、夹爪、底盘具体怎么控制。
不同历史阶段的工作,其实是在补这三块能力里的不同缺口。
- Model-based RL 这条线在说:智能体应该先学一个世界模型,在脑子里试一试,再行动。
- Diffusion Policy 这条线在说:机器人动作本身很复杂,最好把动作序列当成一个生成问题。
- Video Generation as Planning 这条线在说:如果能生成未来视频,那未来视频本身就像一个计划。
- VLA / 机器人基础模型这条线在说:机器人需要听懂语言、看懂物体、跨任务泛化。
DreamZero 的位置就是:它把这几条线揉在一起,问了一个更激进的问题:
能不能让一个视频世界模型不仅会“想象未来”,还会同时给出“为了达到这个未来应该执行的动作”?
下面按脉络展开。
#3.1 第一条线:model-based RL —— “先在脑子里试一遍,再真的动手”
如果完全不懂 RL,可以先把 model-based RL 理解成一个很朴素的常识。
比如你要把杯子从桌子左边挪到右边。你不会随机乱挥手,而会在脑子里预演:
如果我从这个角度抓 -> 杯子可能被夹住
如果我抓太边缘 -> 杯子可能滑掉
如果我先推一下 -> 杯子可能更靠近手
这就是“世界模型”的直觉:行动前先预测行动后世界会怎样。
#Dreamer:在 latent space 里做梦
代表工作: Dreamer / DreamerV2 / DreamerV3。
Dreamer 想解决的问题是:真实世界试错太贵。机器人、游戏 agent 或控制系统如果每学一个动作都要真实执行,成本很高,也可能危险。所以 Dreamer 训练一个 world model,让 agent 可以在模型里“做梦”。
它的流程可以用人话写成:
真实环境里收集一些经验
-> 学一个“世界会怎么变”的模型
-> 在这个模型里想象很多未来轨迹
-> 用想象轨迹训练策略
-> 再回真实环境验证
这里的关键词是 latent imagination。latent 可以理解成“压缩后的脑内状态”,不是完整图像。比如你看到一个杯子,不一定要记住每个像素,只要记住“杯子在左边、手在右边、杯子可抓”这些对决策有用的信息。
Dreamer 解决了什么旧问题?
- 旧问题:RL 需要大量真实交互,样本效率低。
- Dreamer 的答案:学一个世界模型,在模型里大量想象,减少真实试错。
它留下了什么新问题?
- 它通常还是 task-specific 的:一个任务里学世界模型和策略。
- 它依赖 reward:需要知道什么结果是好、什么是坏。
- 它的世界模型主要服务于 RL value/policy,不是一个能听语言、看真实复杂场景、跨任务泛化的机器人基础模型。
它和 DreamZero 的关系是什么?
Dreamer 给了 DreamZero 一个非常重要的思想:想象未来可以帮助决策。
但 DreamZero 把这个思想换了一个时代背景:
- Dreamer 的 world model 多是小模型、任务内训练;
- DreamZero 的 world model 是大视频模型,有互联网/大规模视频先验;
- Dreamer 在想象里训练 policy;
- DreamZero 让 world model 本身直接输出动作,成为 zero-shot policy。
所以可以这样记:
Dreamer 是“在梦里训练一个策略”;DreamZero 是“让会做梦的模型自己就变成策略”。
#MuZero:不需要还原整个世界,只需要学会“对决策有用的世界”
代表工作: MuZero。
MuZero 很有意思,因为它没有要求模型重建真实画面。它不关心“下一帧像素长什么样”,而关心:
- 当前局面是什么;
- 做某个动作后局面大概变成什么;
- 这个动作会带来多少 reward;
- 未来胜率/value 是多少。
用下棋类比,MuZero 不需要在脑子里生成一个漂亮棋盘图片,它只需要知道“这步棋之后我的局势更好还是更坏”。
它解决了什么旧问题?
- 旧问题:如果要求 world model 还原所有细节,可能浪费大量容量。
- MuZero 的答案:只学对规划有用的信息,不必重建像素。
它留下了什么新问题?
- 它更适合游戏/离散动作/MCTS 搜索设置。
- 它依赖 reward/value/self-play,不是直接处理真实机器人和语言指令。
- 它的动作空间和真实机器人连续控制差别很大。
它和 DreamZero 的关系是什么?
MuZero 给 DreamZero 之后的研究一个提醒:生成 RGB 视频不一定是最终答案。
DreamZero 选择生成视频,是因为视频扩散模型已经很强,视频也很直观。但从控制角度看,机器人真正需要的可能不是“每个像素都对”,而是:
- 哪个物体会动;
- 是否发生接触;
- 夹爪和物体的相对位置;
- 当前动作是否让任务更接近完成。
所以 MuZero 这条思想会导向 DreamZero 后续的一个重要问题:
WAM 应该预测好看的未来视频,还是预测对控制最有用的未来状态?
#TD-MPC / TD-MPC2:连续控制里的“短期脑内试动作”
代表工作: TD-MPC / TD-MPC2。
TD-MPC 更接近机器人控制。它做的是连续动作控制:不是“上下左右”这种离散动作,而是关节角、速度、力矩这类连续数值。
它的直觉像这样:
我先在模型里试 100 种未来动作序列
看看哪一种预测结果最好
选最好的前几步执行
执行后重新观察,再规划下一段
这就是 MPC:Model Predictive Control,模型预测控制。
它解决了什么旧问题?
- Dreamer 类方法证明想象有用,但机器人控制里动作连续、精度要求高。
- TD-MPC 把 learned latent dynamics 和 MPC 结合起来,让模型在连续控制里更实用。
它留下了什么新问题?
- 仍然更偏具体任务/benchmark,不是开放世界机器人基础模型。
- 需要 reward/value 或任务定义。
- 一般没有自然语言理解,也没有互联网视频先验。
它和 DreamZero 的关系是什么?
TD-MPC 和 DreamZero 都有“短期预测 + 闭环执行”的味道。但区别是:
- TD-MPC 通常是“学一个动力学模型,然后在线搜索动作”;
- DreamZero 是“生成未来视频和动作,动作直接从模型出来”,不需要每次做大量搜索。
所以 DreamZero 更像把 MPC 的“短期想象”压进一个大生成模型里,让模型一次性给出一段 action chunk。
#3.2 第二条线:Diffusion Policy —— “动作不是一个点,而是一整段轨迹”
理解 Diffusion Policy,要先理解机器人动作为什么难。
假设任务是“把毛巾叠起来”。同一个初始状态下,可能有很多合理动作:
- 可以先抓左上角;
- 也可以先抓右上角;
- 可以先抖一下;
- 可以先拉平再折。
这些都可能对。传统行为克隆如果用一个简单高斯分布拟合动作,容易把多种动作平均起来,结果变成一个谁都不像的动作。
Diffusion Policy 的想法是:既然图像生成里扩散模型能生成复杂、多峰、高质量样本,那动作也可以用扩散模型生成。
它的流程是:
输入当前图像/状态/任务条件
-> 从噪声开始逐步去噪
-> 生成一整段未来动作序列 action chunk
-> 执行其中一部分,再重新观察
它解决了什么旧问题?
- 旧问题:机器人动作分布多峰,简单 policy 容易平均掉。
- Diffusion Policy 的答案:用扩散模型生成动作序列,表达复杂动作分布。
它留下了什么新问题?
- 它主要生成动作,不显式预测“动作执行后世界会怎样”。
- 如果环境变化超出训练分布,它没有一个显式 world model 来检查自己的动作后果。
- 它更像强动作生成器,而不是能“想象未来”的决策系统。
它和 DreamZero 的关系是什么?
DreamZero 继承了“动作 chunk 生成”这个思想,但加了一半灵魂:动作要和未来视觉一起生成。
可以这样对比:
Diffusion Policy:当前观测 -> 未来动作
DreamZero:当前观测 -> 未来视频 + 未来动作
Diffusion Policy 像一个熟练工人,看到场景后直接伸手;DreamZero 像一个会先在脑子里看到“杯子被拿起来并放好”的工人,然后让动作跟着这个想象走。
#3.3 第三条线:Video Generation as Planning —— “如果能看到未来视频,那它就是一种计划”
视频生成规划这条线非常接近 DreamZero,也最容易用人话理解。
如果我给你一张当前桌面的图片,再给一句话:“把苹果放进碗里”。如果一个模型能生成一段视频:
手伸向苹果 -> 抓住苹果 -> 移到碗上方 -> 松手 -> 苹果落入碗中
那这段视频其实已经是一个计划。它告诉你中间应该经历哪些状态。
问题是:视频不是动作。视频里手动了,但机器人到底每个关节该怎么动?这就需要 inverse dynamics,也就是“从状态变化反推动作”。
#UniPi:先生成视频计划,再反推动作
代表工作: UniPi, Learning Universal Policies via Text-Guided Video Generation。
UniPi 的路线是:
当前图像 + 文本目标
-> 生成未来视频
-> 用 inverse dynamics / controller 把视频变成动作
它解决了什么旧问题?
- 旧问题:传统 policy 直接从目标到动作,中间缺少可解释计划。
- UniPi 的答案:先生成未来视觉轨迹,把规划变成视频生成。
它留下了什么新问题?
- 生成的视频可能看起来对,但未必能被真实机器人执行。
- 视频生成和动作执行是两个模块,中间可能断裂。所谓“断裂”,可以理解成:视频模型只负责想象结果,动作模型只负责追这个结果。前者可能生成了一个人类手很容易完成、但当前机器人夹爪很难完成的动作过程;后者即使努力反推,也找不到一串真实可执行的关节动作。
- inverse dynamics 如果不够强,视频计划也落不了地。
它和 DreamZero 的关系是什么?
UniPi 是 DreamZero 的重要前身。它已经说出“视频可以是计划”。DreamZero 往前推了一步:
UniPi:先生成视频,再找动作
DreamZero:视频和动作一起生成,让动作天然对齐视频
所以 DreamZero 可以看作是在修补 UniPi 的断点:不要让 video planner 和 action executor 分家。
#RoboDreamer:不只是复现任务,而是组合出新任务
代表工作: RoboDreamer。
机器人任务有一个麻烦:训练集中可能见过“拿苹果”,也见过“把杯子放进碗”,但没见过“把苹果放进碗”。如果模型只是记忆训练任务,就泛化不了。
RoboDreamer 关注的是 compositional world model,也就是组合式世界模型。它希望模型能把任务拆成更小的 primitive:
靠近物体 -> 抓取物体 -> 移动物体 -> 放下物体
然后把见过的元素重新组合成没见过的新任务。
它解决了什么旧问题?
- 旧问题:视频规划模型可能只会生成训练中见过的组合。
- RoboDreamer 的答案:把任务分解成可组合 primitive,提高组合泛化。
它留下了什么新问题?
- 它仍然更偏“生成未来视频计划”。
- 要让真实机器人执行,还需要动作模块或 controller。
- 组合出来的视频是否物理可行、动作是否可执行,仍是问题。
它和 DreamZero 的关系是什么?
RoboDreamer 让 DreamZero 这类模型看到:WAM 不应该只是模仿训练数据里的整段轨迹,还应该能组合技能、组合物体和动作。
DreamZero 则进一步关心:组合出来的未来,不仅要像视频,还要能配上动作并落到真实机器人上。
#Genie / Genie2:从无动作标签视频里学“可交互世界”
代表工作: Genie / Genie2。
Genie 做的事情可以用游戏类比:给模型看很多游戏视频,即使视频里没有标注“玩家按了左键/右键/跳跃”,模型也尝试学出一种 latent action,让生成的世界可以被控制。
它解决的是一个非常大的问题:互联网上有海量视频,但大多数没有机器人动作标签。能不能从这些视频里学到“世界如何响应动作”?
它解决了什么旧问题?
- 旧问题:带 action label 的机器人数据很少,但无标签视频很多。
- Genie 的答案:从视频中无监督学 latent action 和可交互生成环境。
它留下了什么新问题?
- latent action 不一定对应真实机器人的关节动作。
- 游戏/视频里的可交互控制和真实机器人控制还有很大 gap。
- 它更像生成可交互环境,不是直接输出真实机器人动作。
它和 DreamZero 的关系是什么?
Genie 证明“视频里可能藏着动作结构”。DreamZero 面对的是下一步:
如何把视频里学到的动作结构,接到真实机器人的 embodiment 和 action space 上?
这也是 DreamZero 做 video-only human/robot transfer 的意义所在:如果 WAM 能从没有动作标注的视频里吸收任务动态,那未来就可能利用大规模人类视频学习机器人技能。
#UniSim:把生成模型当成“真实世界模拟器”
代表工作: UniSim, Learning Interactive Real-World Simulators。
UniSim 的想法是训练一个可以响应动作的真实世界模拟器。它不只是生成一段开放式视频,而是希望模型知道:如果 agent/robot/human 做了某个动作,世界会如何变化。
它解决了什么旧问题?
- 旧问题:物理仿真器建模真实世界太难,视觉多样性、接触、物体变化都复杂。
- UniSim 的答案:从多源数据里学习一个生成式交互模拟器。
它留下了什么新问题?
- 模拟器生成的未来是否足够准确?
- 它能否支持真实机器人控制,而不是只生成 plausible video?
- action consistency 和 contact correctness 很难。
它和 DreamZero 的关系是什么?
UniSim 更像“外部世界模拟器”,DreamZero 更像“把模拟器压进策略模型内部”。
UniSim:我给你一个可交互世界,你可以在里面试动作
DreamZero:我自己在内部想象未来,并直接输出动作
#3.4 第四条线:机器人基础模型 —— “机器人需要听懂人话,也要跨任务泛化”
上面几条线强调世界模型、动作生成、视频计划。但机器人还需要另一个能力:听懂自然语言、认识物体、理解任务。
这就是 VLA / robot foundation model 这条线。
#RT-1:先证明“大规模机器人数据 + Transformer policy”有效
代表工作: RT-1, Robotics Transformer for Real-World Control at Scale。
RT-1 可以理解成机器人领域的一个重要信号:不要再为每个小任务训练一个小 policy,而是用大量真实机器人数据训练一个多任务 Transformer。
它输入图像和语言,输出动作 token。
它解决了什么旧问题?
- 旧问题:机器人策略常常一个任务一个模型,泛化很差。
- RT-1 的答案:收集大规模多任务机器人数据,训练一个通用策略。
它留下了什么新问题?
- 它主要是 direct policy,不显式预测未来世界。
- 泛化依赖数据覆盖,训练没覆盖的新技能仍然困难。
- 它的语义理解和物理动力学理解还没有充分分开。
它和 DreamZero 的关系是什么?
RT-1 开启的是“机器人也要 scaling”的思路。DreamZero 继承 scaling,但把 scaling 的对象从 direct policy 扩展到 world-action model。
#RT-2:把互联网语义知识迁移到机器人
代表工作: RT-2, Vision-Language-Action Models Transfer Web Knowledge to Robotic Control。
RT-2 的核心想法是:VLM 已经从互联网学了很多视觉语言知识,为什么不把这些知识迁移到机器人?
它把动作也表示成 token,让 VLM 可以像输出文本一样输出机器人动作。
它解决了什么旧问题?
- 旧问题:机器人数据少,模型不认识长尾物体和复杂语言概念。
- RT-2 的答案:把 web-scale VLM 知识迁移到 action prediction。
它留下了什么新问题?
- VLM 的强项是语义,不是物理动力学。
- 它知道“锤子可以敲东西”,不代表知道机器人手腕怎么转、接触力怎么变化。
- 对未见过的 motion/skill,direct action head 仍然可能弱。
它和 DreamZero 的关系是什么?
RT-2 代表 VLA 路线的高光:机器人终于能借用互联网语义知识。DreamZero 则指出 VLA 还少了一块:视频/物理世界先验。
可以这样记:
RT-2:让机器人借用 VLM 的语义脑
DreamZero:让机器人借用视频模型的物理想象脑
未来更可能是二者结合:VLA 做任务理解,WAM 做物理想象和短期控制。
#Open X-Embodiment / RT-X / Octo:解决机器人数据碎片化
代表工作: Open X-Embodiment, RT-X, Octo。
机器人数据有一个很现实的问题:不同实验室的机器人长得不一样,摄像头不一样,动作空间不一样,任务也不一样。数据很难合起来用。
Open X-Embodiment 做的是把很多机器人、很多任务的数据统一起来。RT-X / Octo 则在这种跨机器人数据上训练 generalist policy。
它解决了什么旧问题?
- 旧问题:机器人数据分散,每个机器人各玩各的,模型难以规模化。
- 它的答案:统一数据格式,训练跨机器人策略。
它留下了什么新问题?
- 不同 embodiment 的动作空间很难统一。
- 多机器人数据可以增加覆盖,但不自动带来物理理解。
- direct policy 仍然可能学到数据里的表面相关性,而不是可迁移的世界动力学。
它和 DreamZero 的关系是什么?
DreamZero 也关心跨 embodiment,但它的切入角度不同:如果模型能预测 future video,再通过 visual future 对齐动作,那么跨机器人迁移可能更容易利用 video-only data。
也就是说,Open X 解决“数据怎么合”;DreamZero 进一步问“合起来的数据里,模型到底应该学 direct action mapping,还是学 world-action dynamics?”
#GR-1:DreamZero 最接近的前身之一
代表工作: GR-1, Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation。
GR-1 非常关键,因为它已经把“视频生成预训练”和“机器人动作预测”放到了一起。
它的直觉是:视频里有大量时序信息。一个学过视频生成的模型,可能更懂物体运动、手和物体交互、任务阶段变化。于是用视频生成预训练来帮助机器人操作。
它解决了什么旧问题?
- 旧问题:机器人数据少,纯机器人数据训练的策略泛化有限。
- GR-1 的答案:用大规模视频生成预训练提供时序视觉先验,同时预测未来图像和动作。
它留下了什么新问题?
- 它更像“视频预训练增强的机器人 policy”。
- 它还没有把 WAM 明确上升为“zero-shot policy”范式。
- 它对真实开放任务、新环境、新 embodiment 的系统性证明没有 DreamZero 那么激进。
它和 DreamZero 的关系是什么?
如果要找 DreamZero 最近的亲戚,GR-1 很可能是其中之一。
可以这样理解:
GR-1:视频生成预训练可以帮助机器人动作预测
DreamZero:视频-动作联合世界模型本身可以成为零样本策略
前者像是在说“视频生成是一个很好的辅助任务/预训练方式”;后者则说“视频生成式世界模型可以成为策略的主体”。
#3.5 把前置脉络串起来:每条线各自缺一块,DreamZero 试图补齐
到这里,我们可以把几条线的人话逻辑串起来:
| 脉络 | 它抓住的关键 | 它还缺什么 | DreamZero 怎么接上 |
|---|---|---|---|
| Dreamer / MuZero / TD-MPC | 决策需要想象未来 | 多数不是开放机器人 foundation policy | 用大视频模型做可泛化的物理想象 |
| Diffusion Policy | 动作序列本身适合生成建模 | 不显式预测动作后果 | 动作和未来视频一起生成 |
| UniPi / RoboDreamer | 未来视频可以作为计划 | 视频和动作执行分离 | joint video-action generation |
| Genie / UniSim | 视频中可学交互世界 | action 不一定是真实机器人动作 | 绑定到真实机器人 action space |
| RT-1 / RT-2 / Octo | 机器人需要语言理解和多任务泛化 | direct policy 缺少显式物理想象 | 从 VLA 推向 WAM |
| GR-1 | 视频生成预训练有助于机器人 | 仍偏辅助/预训练范式 | 明确提出 WAM = zero-shot policy |
所以 DreamZero 不是凭空出现的。它像一个汇合点:
Dreamer 给它“想象未来”的思想,Diffusion Policy 给它“动作生成”的工具,UniPi/RoboDreamer 给它“视频即计划”的直觉,RT/Octo 给它“机器人 foundation model”的目标,GR-1 给它“视频预训练 + 动作预测”的近身前身。
DreamZero 真正的新表述是:
不要把世界模型、视频计划、动作策略拆成三个模块;能不能训练一个统一模型,同时想象未来和给出动作,并且直接作为 zero-shot policy?
#4. DreamZero 本身:它到底做了什么?
前面讲了很多铺垫,现在回到 DreamZero。先不要被论文里的公式吓到,我们先看它跑起来像什么。
#4.1 先用一张人话流程图看 DreamZero
DreamZero 的执行流程可以先理解成:
输入:当前相机画面 + 最近几帧历史 + 语言指令 + 机器人本体状态
↓
视频扩散模型开始“做一个短梦”
↓
同时生成两样东西:
1. 接下来几帧世界会怎样变化
2. 为了造成这些变化,机器人该执行哪些动作
↓
真正送到机器人控制器的是动作 chunk
↓
执行一小段后,机器人重新看真实世界
↓
用真实观察纠正下一次想象,再生成下一段
这里最容易误解的一点是:机器人不是在执行视频,机器人执行的是动作。未来视频更像模型同时给出的“我认为这些动作会造成什么结果”。它既帮助动作学习,也让我们能检查模型是不是朝正确方向想象。
#4.2 核心定义:World Action Model
DreamZero 定义的 WAM 是一种基础模型:它不是只预测动作,也不是只预测未来视频,而是对齐地预测未来视觉状态和动作轨迹。
传统 VLA:
observation + language -> action
DreamZero / WAM:
observation history + language + proprioception -> future observations + actions
论文中的分解可以用人话理解成:
- 模型要想象:根据当前观测和语言,未来视觉状态应该怎么变;
- 模型也要知道:如果未来要这样变,机器人应该执行什么动作;
- 但实际训练时,它不是训练两个互不相干的模型,而是端到端联合训练,让视频和动作彼此配套。
这背后的直觉是:动作应该服务于一个想象出来的未来。如果模型想象“手抓住杯子并放到杯垫上”,对应动作就应该把手移动到杯子、抓取、搬运、释放。
#“视频和动作对齐”到底是什么意思?
可以把一条机器人数据想成两条同步记录:
画面:手靠近杯子 -> 夹爪碰到杯子 -> 杯子被抬起 -> 杯子放到杯垫上
动作:手往杯子方向移动 -> 夹爪闭合 -> 手向上移动 -> 手移动到杯垫并打开夹爪
所谓对齐,就是模型不能只学第一行,也不能只学第二行,而要学会两行之间的对应关系:
- 哪个动作会让画面发生哪种变化;
- 哪种画面变化通常需要哪类动作;
- 动作发生的时间点要和画面变化的时间点匹配;
- 如果未来视频里杯子被抬起来,动作里就应该出现夹爪闭合和上移动作;
- 如果动作里夹爪没有闭合,未来视频里就不应该出现杯子被稳定拿起。
所以 WAM 的关键不是“多预测了一个视频”,而是让动作预测受到未来画面的约束,让未来画面也受到动作的约束。
#4.3 它是不是“先生成视频,再根据视频生成动作”?
不是严格的两阶段。
更准确地说,DreamZero 不是这样:
第一步:完整生成未来视频
第二步:把未来视频交给另一个模型
第三步:另一个模型根据视频反推动作
那更像 UniPi 这类 video planning 路线。
DreamZero 更像这样:
当前观测 + 指令 + 机器人状态
↓
共享的视频-动作生成过程
↓
未来视频 ⇄ 动作
这里的 ⇄ 很关键。它表示视频和动作不是简单先后关系,而是在同一个生成过程中互相约束、共同成形。
用人的动作类比:你拿杯子时,不是先在脑子里完整播放一部电影,然后暂停电影,再逐帧计算关节怎么动。你更像是一边形成“手会靠近杯子、杯子会被拿起来”的未来想象,一边自然地产生“手该往哪里伸、夹爪什么时候闭合”的动作意图。
DreamZero 想学的就是这种绑定关系。
#4.4 那视频到底怎么帮助动作?
你的疑问非常关键:既然视频和动作是同时生成的,那视频是不是根本没有帮动作?
答案是:视频不是作为一个已经生成好的中间结果去喂给动作;视频是动作学习的物理对齐信号。
它的帮助主要发生在训练中。
训练数据里每一段轨迹都有:
当前观测 o_t
未来视频 o_{t:t+H}
真实动作 a_{t:t+H}
语言指令 c
机器人本体状态 q_t
比如一段真实数据是:
画面:夹爪靠近杯子 -> 夹住杯子 -> 杯子被抬起
动作:末端向杯子移动 -> gripper close -> 末端上升
模型训练时要同时还原这两件事:
- 这段未来视频;
- 这段动作。
所以它会慢慢学到:
如果未来视频里夹爪靠近杯子,动作大概率应该是末端朝杯子移动;
如果未来视频里杯子被抬起来,动作大概率包含夹爪闭合 + 末端上升;
如果未来视频里物体没有动,动作可能没有成功接触。
这个关联不是人工写规则写进去的,而是从大量真实“视频-动作配对”里学出来的。
因此,视频对动作的帮助不是:
视频生成完 -> 动作模型看视频 -> 输出动作
而是:
训练时,模型被迫同时解释“动作是什么”和“动作造成了什么视觉后果”
这样动作生成就不再只是模仿动作数字,而是被拉到一个物理合理的轨道上。
#4.5 Backbone:14B 视频扩散模型
DreamZero 使用预训练 image-to-video diffusion backbone,主要版本基于 Wan2.1-I2V-14B-480P。I2V 就是 image-to-video:给当前图像,让模型续写未来视频;14B 大致表示 140 亿参数级别。DreamZero 在这个视频模型上增加少量机器人相关模块:state encoder、action encoder、action decoder,同时保留视频模型的时空先验。
这很关键:DreamZero 不是从零训练机器人模型,而是借用视频生成模型已经学到的物理/时空先验,再让它对齐机器人动作。
所谓视频模型的先验,可以理解成:它已经从大量视频里见过“手会怎么动”“物体被推会怎么滑”“东西被拿起后画面会怎么变化”。这些知识未必精确到机器人控制,但比从零开始学物理变化要强很多。DreamZero 做的是把这种“看视频学来的世界直觉”接到真实机器人的动作空间上。
#4.6 训练目标:联合 denoise 视频和动作
训练上可以先理解为“联合去噪”:把未来视频和动作都打乱,再让模型一步步修回真实轨迹。论文技术上使用的是 flow matching:把干净的视频 latent 和动作加入噪声,然后训练模型预测从噪声到干净样本的速度方向。
如果这句话仍然抽象,可以把它理解成:训练时模型看到的是一团被打乱的“未来视频 + 动作草稿”,它要一步步把这团草稿修正成真实数据里的样子。
被打乱的视频草稿 + 被打乱的动作草稿
↓
模型一步步修正
↓
真实未来视频 + 真实动作轨迹
因为视频和动作是一起被打乱、一起被修正的,所以模型学到的不是孤立的动作,也不是孤立的视频,而是一整段“画面变化 + 对应动作”的配套方案。
这和普通 Diffusion Policy 的差别是:Diffusion Policy 只 denoise 动作;DreamZero 同时 denoise 未来世界和动作。
这带来的效果是:动作不是凭空生成的。模型在修正动作时,会同时参考它正在修正的未来画面;模型在修正未来画面时,也会受到动作轨迹的影响。比如它不能一边预测“夹爪没有闭合”,一边生成“杯子被稳稳拿起”的视频,因为这种组合在真实数据里是不一致的。
所以最准确的一句话是:
视频不一定是动作的前置输入,但它是动作学习的物理对齐信号。
#4.7 推理:生成未来视频和动作,然后闭环执行
DreamZero 的执行过程大致是:
- 输入当前视觉观测、语言指令、本体状态;
- 模型生成未来视频 chunk 和动作 chunk;
- 真正送到机器人控制器的是动作 chunk;
- 机器人执行动作 chunk 的一小段;
- 执行后真实摄像头返回新观测;
- 用真实观测替换模型预测的视频上下文;
- 再生成下一段。
这一步非常重要。纯视频自回归生成会误差累积,但机器人闭环执行可以不断用真实观测校正模型想象。
原因很简单:模型想象的未来不可能永远准确。杯子可能滑了一点,手可能没抓稳,桌面摩擦也可能和模型想的不一样。所以 DreamZero 不应该闭着眼把整段长计划执行完,而是执行一小段就重新看一眼真实世界。这样即使前一段有偏差,下一段也能及时纠正。
可以把它理解为:DreamZero 每次“做一个短梦”,执行一小段,然后睁眼看真实世界,再做下一个梦。
#4.8 实时性:从 14B 扩散模型到 7Hz 控制
14B 视频扩散模型本来很慢。DreamZero 报告通过一系列系统优化,把 naive 推理从约 5.7 秒/action chunk 加速到约 150ms/chunk,达到约 7Hz 闭环控制。
优化包括下面几类。这里不用记每个工程名词,只要知道它们都在减少扩散模型的等待时间、复用重复计算、让控制不要卡顿:
- 异步 closed-loop execution:模型生成下一段动作时,机器人可以继续执行上一段动作,不必完全停下来等;
- CFG parallelism:把生成时的条件/无条件分支并行算,减少等待;
- DiT caching:相邻去噪步骤里有些计算很像,可以复用;
- torch.compile / CUDA Graph:减少 PyTorch 和 GPU 调度开销;
- quantization:用更低精度表示模型权重和激活,让推理更快;
- scheduler/kernel 优化:让扩散采样和 attention 计算更高效;
- action smoothing:把生成的动作轨迹变得更平滑,避免机器人抖动。
这说明 WAM 的一个现实瓶颈是:想象越强,计算越贵;机器人控制又要求实时。
#4.9 数据哲学:diversity over repetition
DreamZero 在 AgiBot G1 机器人平台上收集了约 500 小时 teleoperation data,也就是人远程操控机器人得到的数据;7193 个 episodes,也就是 7193 条完整任务轨迹;覆盖 22 个真实环境。它强调的不是每个任务大量重复,而是多样、非重复、长尾行为。
这和传统模仿学习很不一样。传统 BC 往往需要每个任务很多 demonstration,而 DreamZero 希望通过视频模型先验和 world-action joint modeling,从多样数据中学到可泛化的物理技能。
对 WAM 来说,多样性尤其重要,因为它不只是记住某个任务的固定动作,而是要学“动作和世界变化之间的通用关系”。如果数据里只有同一个杯子、同一个桌子、同一个动作重复很多遍,模型容易记住套路;如果数据里有不同物体、不同环境、不同失败和修正过程,模型更可能学到可迁移的物理变化规律。
#4.10 主要结果
论文报告 DreamZero 在真实机器人 seen/unseen tasks 上显著超过 GR00T N1.6、π0.5 等 VLA baseline。这里的 task progress 可以粗略理解为“任务完成进度”,不完全等同于每次完整成功率。几个关键结论:
- 在 AgiBot seen tasks 上,DreamZero 平均 task progress 约 62.2%,显著高于 best pretrained VLA baseline 约 27.4%。
- 在 AgiBot unseen tasks 上,DreamZero 约 39.5%,pretrained VLA baseline 约 16.3%。
- 在 DROID-Franka unseen tasks 上,DreamZero 也优于 pretrained VLA baseline。
- task-specific post-training 后,DreamZero 在 shirt folding、fruit packing、table bussing 等任务上平均约 90.5%。
- 使用人类或其他机器人 video-only demos,可让 unseen task performance 相对提升超过 42%。
- 仅 30 分钟 play data 可适配新机器人 YAM,并保留一定 zero-shot generalization。
这些数字想说明的不是“DreamZero 每个任务都解决了”,而是:在新环境、新任务、少量迁移数据下,WAM 的物理想象先验确实给机器人策略带来了额外泛化能力。
#4.11 DreamZero 的关键洞察:失败常来自“想象错”,不是“动作头不会动”
论文中一个很重要的观察是:多数失败来自 video generation errors,而不是 action prediction errors。也就是说,DreamZero 往往会忠实执行它想象出来的轨迹;如果想象错了,动作也会跟着错。
这其实也反过来说明了 DreamZero 的视频-动作对齐是有效的:动作确实跟着想象走。问题在于,一旦“想象的未来”本身错了,对齐得越好,机器人反而越会认真执行这个错误未来。
所以 WAM 的核心风险不是“不会输出动作”,而是“会生成 plausible but wrong future”。后续需要研究:
- 什么时候相信想象?
- 如何估计想象的不确定性?
- 如何发现 hallucinated future?
- 什么时候重新观察和重新规划?
#5. DreamZero 之后:WAM 方向怎么展开?
先强调一个判断:DreamZero 是 2026 年 2 月的新工作,所以所谓“后续工作”还不能理解成已经形成稳定 citation graph 的成熟流派。更准确地说,2026 年 3–5 月出现的一批论文,是围绕 DreamZero 暴露出的几个问题快速展开的同期/后续趋势信号。
DreamZero 证明了一件事:视频世界模型可以直接变成机器人策略。
但它立刻带来一串新问题:
- 这么大的视频模型太慢,能不能更轻?
- 机器人动作是低维数值,视频模型是图像 token,二者怎么对齐?
- RGB 视频很重,能不能预测更有用的几何、物体、接触、价值图?
- 模型想象的未来可能是错的,机器人什么时候该相信它?
- 如果 world model 能预测未来,能不能拿它当模拟器、评测器、数据生成器?
你可以把 DreamZero 之后的工作理解成:大家不是在重复“视频模型能控制机器人”,而是在补 DreamZero 暴露出的工程和科学缺口。
#5.1 第一类后续:效率化 —— “会做梦还不够,梦得太慢机器人等不起”
DreamZero 的一个现实问题是:它用的是 14B 级视频扩散模型。视频扩散模型很强,但天然很慢。人看一段视频可以慢慢生成,机器人控制不行。机器人要闭环执行,必须频繁观察、决策、动作。
所以后续第一类工作问的是:
能不能保留 WAM 的“物理想象能力”,但不要每次都完整生成昂贵的未来视频?
#GigaWorld-Policy:把中心从“生成视频”拉回“生成动作”
论文: GigaWorld-Policy: An Efficient Action-Centered World--Action Model,arXiv:2603.17240。
这个工作可以用一句话理解:
DreamZero 太像“为了控制而生成视频”,GigaWorld-Policy 更想做“为了控制而利用世界模型”。
它针对的是 DreamZero 类模型的成本问题。DreamZero 的思想是联合生成 future video 和 action,但如果每次都认真生成高质量视频,会非常耗算力。GigaWorld-Policy 于是强调 action-centered:动作预测是核心,世界建模为动作服务。
更具体地说,它不是完全放弃世界模型,而是把“预测未来世界”从主菜变成配菜。DreamZero 每次都像认真画出一段未来视频;GigaWorld-Policy 更像让模型在内部保留一个压缩的未来判断,但最终优化重点放在“下一段动作是否好用”。
DreamZero:显式未来视频 + 动作,视频很重要,也很贵
GigaWorld-Policy:动作是主输出,世界建模主要服务动作,目标是更快控制
Diffusion Policy:主要只生成动作,通常没有明确的 world-model 约束
所以它真正问的是:不把梦完整画出来,机器人还能不能借到“做梦”的好处?
从方法抓手上看,action-centered 通常意味着:训练和推理的主要优化目标围绕动作质量展开,世界预测更多作为内部约束或辅助信号,而不是每次都生成一段供人观看的完整视频。
小白类比:
- DreamZero 像一个人做决定前,在脑子里播放一段高清电影;
- GigaWorld-Policy 更像一个人只抓住关键画面和动作后果,不一定要把每一帧都想清楚。
它在解决 DreamZero 的什么问题?
- DreamZero 的视频生成太重;
- 控制需要低延迟;
- 真正执行时,动作质量比视频观感更重要。
它推动了什么新问题?
如果减少视频生成,模型还剩多少 world understanding?也就是说:
视频生成到底是 WAM 能力的来源,还是训练时的辅助脚手架?
这会引出一个很基础的问题:WAM 的“世界模型能力”应该显式表现为视频,还是隐式存在于动作预测 latent 中?
#Being-H0.7:从显式视频走向 latent world-action model
论文: Being-H0.7: A Latent World-Action Model from Egocentric Videos,arXiv:2605.00078。
Being-H0.7 的关键词是 latent。它代表另一种方向:不要执着于把未来 RGB 图像完整生成出来,而是在 latent space 里保留对未来有用的信息。
它题目里的 egocentric videos 指第一视角视频,比如人头戴相机、胸前相机或手边相机拍到的“我正在操作世界”的视频。它们未必有机器人动作标签,但有大量手-物体交互经验:什么时候接触,物体如何移动,任务分几个阶段,哪些动作会让物体状态改变。
这里的 latent 可能不是神秘黑盒,而是某种压缩操作笔记:手和物体的相对运动、接触时刻、任务阶段、物体状态变化。它不一定告诉你每个像素会怎样,但会保留“为了完成任务,世界里哪些关键东西会变”。
从“人类第一视角视频”接到“机器人动作”的桥,通常不会是直接模仿人手关节,而是先学这种中间层:物体如何被接触、如何移动、任务阶段如何推进,再把它翻译到机器人自己的动作空间。
小白类比:
当你准备拿杯子时,你脑子里不一定真的渲染出一段高清 4K 视频。你可能只是有一个压缩计划:
手靠近杯子 -> 夹住杯身 -> 抬起 -> 移到目标位置 -> 放下
这就是 latent future:不是完整画面,而是对行动有用的压缩未来。
和 DreamZero 的差异可以这样理解:DreamZero 更像“机器人看当前画面,想象未来视频和动作”;Being-H0.7 更像“先从大量人类第一视角视频里学会操作的压缩规律,再想办法迁移到机器人”。
它在解决 DreamZero 的什么问题?
- RGB 未来视频太贵;
- 很多像素细节对控制没用;
- egocentric video 里有丰富人类动作经验,但直接转成机器人视频/动作很难。
它推动了什么新问题?
latent 表示更高效,但不如视频可解释。于是新问题变成:
我们如何知道 latent world model 真的学到了物理未来,而不是学到了一些数据捷径?
这会推动后续的可解释性、验证器和 benchmark。
#Unified 4D World Action Modeling:机器人不是活在 2D 图片里,而是活在 3D/4D 世界里
论文: Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising,arXiv:2604.26694。
DreamZero 主要继承视频模型,所以自然从 2D 视频出发。但机器人操作不是纯 2D 问题。机器人需要知道:
- 物体离我多远;
- 夹爪有没有碰到物体;
- 物体在三维空间中怎么移动;
- 时间上接触顺序如何变化。
所以 4D WAM 这类工作把 WAM 推向 depth、3D、4D 表示。
这里的 4D 不要理解成玄学。最直白地说:3D 是空间,外加时间就是 4D。也就是不只预测“下一帧图片长什么样”,而是预测“三维空间里的物体随时间怎么运动”。
RGB 视频预测:画面里看起来夹爪碰到了杯子
4D 预测:夹爪在三维空间里距离杯子还有 2cm,所以其实没碰到
题目里的 asynchronous denoising 可以粗略理解为:不同模态不一定按同一个节奏生成。RGB、深度、3D 运动、动作的难度和时间尺度不同,模型可以用不同步的方式去噪,而不是强行把所有东西当成同一种 token 一起生成。
小白类比:
只看单张照片,你可能看不出杯子和手的真实距离;但机器人要抓杯子,距离差一点就抓空。对机器人来说,世界不是“图片”,而是“随时间变化的三维场景”。
它在解决 DreamZero 的什么问题?
- 2D RGB 对空间和接触表达不足;
- 单纯视频可能看起来合理,但几何上不可执行;
- 机器人需要深度、位姿、接触和时间一致性。
它推动了什么新问题?
引入 3D/4D 后,模型更贴近控制,但数据、标注、训练和推理都会更复杂。后续要回答:
到底多少几何信息是必要的?RGB、depth、point cloud、scene flow、4D representation 应该怎么组合?
#5.2 第二类后续:动作表示 —— “视频模型到底怎样理解机器人动作?”
DreamZero 里有一个底层难题:视频模型擅长处理图像 token,但机器人动作通常是数字。
例如一个动作可能是:
末端执行器 x +0.02, y -0.01, z +0.00, gripper close
对人来说这已经很抽象,对视频模型来说更是外来语言。视频模型天然理解的是像素、运动、形状、光流,而不是关节角表格。
所以后续第二类工作问的是:
能不能把机器人动作翻译成视频模型更容易理解的形式?
#Action Images:把动作画成“图像”给视频模型看
论文: Action Images: End-to-End Policy Learning via Multiview Video Generation,arXiv:2604.06168。
这篇的想法非常直观:既然视频模型擅长看图,那就把动作也变成图。
比如机器人末端未来要走一条轨迹,可以把这条轨迹投影到摄像头视角里,画成 heatmap / action image。这样动作不再是一串抽象数字,而是一种视觉结构。
更具体一点:机器人末端未来 1 秒要经过几个 3D 位置,可以把这些点投影到相机画面上,形成一条彩色轨迹;颜色可以表示时间,亮度可以表示置信度,另一个通道可以表示夹爪开合。这样视频模型看到的不是一串 [0.02, -0.01, 0.00] 数字,而是在图像上直接看到“夹爪应该沿这条路径靠近杯子”。
小白类比:
如果我只告诉你“手往 x 方向移动 3cm,z 方向下降 1cm”,你可能没感觉;但如果我在图片上画一条箭头,你立刻知道手要往哪走。
它在解决 DreamZero 的什么问题?
- 低维动作 token 和视频 token 不好对齐;
- 多视角下动作的空间含义更清楚;
- 把动作视觉化后,可以更充分利用视频 backbone。
它推动了什么新问题?
动作图像很直观,但不是所有动作都容易画出来。比如力、触觉、夹爪力度、关节冗余该怎么表示?这会引出 action representation 的系统研究。
#Multi-View Video Diffusion Policy:单视角不够,多视角更接近真实空间
论文: Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model,arXiv:2604.03181。
这类工作强调多视角。原因很简单:单个摄像头会遮挡,会丢失深度,会误判接触。
多视角方法的核心不是简单多装几个摄像头,而是让模型把不同视角里的同一个物体、同一只夹爪、同一次接触对齐起来。正面看不清深度,侧面补深度;一个视角被手挡住,另一个视角还能看到物体。这样模型生成动作时,不是根据单张照片猜距离,而是根据多个视角共同判断 3D 关系。
Multi-view:用多个 2D 视角互相校正空间判断
4D WAM:进一步想直接建模随时间变化的 3D/4D 世界状态
比如从正面看,夹爪好像碰到了杯子;但侧面看,可能还差 2 厘米。机器人控制里,这 2 厘米就是成功和失败的区别。
它在解决 DreamZero 的什么问题?
- 单视角 RGB 对 3D 操作不够可靠;
- 接触和遮挡需要多视角信息;
- 多视角可以让视频-动作模型形成更稳定的空间理解。
它推动了什么新问题?
多视角带来更强信息,也带来更高成本:摄像头布局、视角同步、跨视角 attention、部署复杂度都会上升。
#AIM:不要只预测“会发生什么”,还要知道“哪里值得操作”
论文: AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps,arXiv:2604.11135。
AIM 引入 spatial value maps,可以理解成给图像上的区域打分:哪里和任务更相关,哪里更值得操作。
Spatial value map 可以想成一张叠在图像上的“任务进度热力图”。如果任务是拿杯子,杯子边缘、杯柄、夹爪即将接触的位置会亮;桌面背景、无关物体会暗。模型不只是问“未来画面会怎样”,还会问“画面里哪些位置能让任务更接近成功”。
当前图像 + 指令
-> 模型预测哪些区域值得操作
-> 动作生成时优先朝高价值区域移动
-> 未来视频预测也更关注这些区域的变化
这和 DreamZero 的区别在于:DreamZero 的未来视频可能把背景、光照、纹理都认真生成出来;AIM 类方法提醒我们,机器人真正关心的不是整张图都逼真,而是任务相关区域有没有预测对。
小白类比:
如果任务是“拿起杯子”,人不会平均看整张桌子,而会把注意力放在杯子、杯柄、夹爪路径这些区域。Spatial value map 就像在图上标出:
这里重要,这里可以抓,这里会影响任务进度
它在解决 DreamZero 的什么问题?
- 纯视频预测可能浪费容量在背景纹理;
- 控制需要知道任务相关区域;
- WAM 需要把“意图”落到空间位置上。
它推动了什么新问题?
如果引入 value map,就会问:value 从哪里来?是人工标注、自动从轨迹推断,还是由 reward/task progress 学出来?这会把 WAM 和 value learning / affordance learning 连接起来。
#5.3 第三类后续:可信度与鲁棒性 —— “想象很强,但什么时候不能信?”
DreamZero 最重要的后续问题之一是 trust。
因为 WAM 生成的未来可能看起来很合理,但真实世界不一定会那样发展。对文本模型来说,幻觉一句话可能只是回答错;对机器人来说,幻觉一个未来可能导致碰撞、掉落、损坏。
所以这一类工作问的是:
WAM 什么时候该继续执行自己的想象?什么时候应该停下来重新看、重新规划?
#When to Trust Imagination:给 WAM 加一个“怀疑自己”的机制
论文: When to Trust Imagination: Adaptive Action Execution for World Action Models,arXiv:2605.06222。
这篇工作题目本身就很人话:什么时候相信想象?
DreamZero 的闭环执行通常是一段一段生成 action chunk。但问题是,每一段该执行多长?如果模型刚开始想对了,后面环境变化了,还继续执行就危险。
这类方法的核心思路可以理解成:
模型想象一个未来
-> 机器人执行一小段
-> 观察真实世界
-> 比较真实世界和想象是否一致
-> 一致就继续,不一致就重新规划
小白类比:
你走路时脑子里预测“下一步地面是平的”。如果踩下去发现地面是软的或有坑,你不会继续按原计划走,而会立刻调整。
它在解决 DreamZero 的什么问题?
- WAM 可能 hallucinate future;
- 固定执行 action chunk 不够安全;
- 需要根据真实反馈自适应 replanning。
它推动了什么新问题?
要比较 imagined future 和 real observation,需要定义“一致”是什么。可以拆成几层:
- 像素一致:画面是不是差不多;
- 物体一致:目标物体位置是否和想象一致;
- 接触一致:夹爪是否真的碰到/抓住了物体;
- 任务一致:任务进度是否真的往前走;
- 风险一致:是否出现了模型没预料到的碰撞、滑落、遮挡。
这些都会影响 verifier 设计。
#Do World Action Models Generalize Better than VLAs?:别只看 demo,要系统测鲁棒性
论文: Do World Action Models Generalize Better than VLAs? A Robustness Study,arXiv:2603.22078。
DreamZero 说 WAM 比 VLA 泛化更好。但科学上不能只看一个系统的 demo 和结果,还要系统问:
- 换背景还行吗?
- 换物体还行吗?
- 换视角还行吗?
- 加干扰物还行吗?
- 指令轻微变化还行吗?
- 换机器人还行吗?
这类 robustness study 的价值在于,它不是提出一个更炫的模型,而是帮社区弄清楚:WAM 到底强在哪里,弱在哪里。
它更像给 WAM 降温:逼着社区回答“WAM 到底在哪些扰动下真比 VLA 强,哪些地方只是 demo 好看”。如果没有这种研究,大家很容易把 DreamZero 的几个成功案例误解成普遍规律。
它在解决 DreamZero 的什么问题?
- DreamZero 的强结果需要独立评估;
- WAM 和 VLA 的优势边界不清楚;
- 需要知道 WAM 是真的学到物理,还是只在某些数据分布下更好。
它推动了什么新问题?
如果发现 WAM 在某些扰动下不如 VLA,就说明未来可能不是 WAM 替代 VLA,而是二者分工:
VLA:语义理解、任务规划、常识
WAM:物理预测、短期动作、接触操作
Verifier:安全和可信度判断
#5.4 第四类后续:WAM as simulator / evaluator —— “既然能想象未来,能不能当模拟器用?”
如果一个 WAM 能预测机器人执行动作后的未来,那么它除了做 policy,还有两个自然用途:
- 当数据生成器:生成更多训练轨迹;
- 当评测器:不用真实机器人,每个 policy 先在 world model 里跑一遍。
这听起来很美,但风险也很大:如果 world model 自己错了,它可能会奖励错误 policy,甚至让 policy 学会利用模型漏洞。
#dWorldEval:用扩散 world model 做可扩展机器人策略评估
论文: dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model,arXiv:2604.22152。
这篇代表的是 evaluator 方向:用 discrete diffusion world model 作为 policy evaluation proxy。
这里的 discrete diffusion 可以暂时理解成:不是直接在连续像素上生成未来,而是把未来状态编码成离散 token,再用扩散式方法生成这些 token。离散 token 的好处是更像语言模型里的“词”,更容易做大规模生成、缓存和评分;但技术细节可以先放一边,关键是它想让 world model 扮演“便宜评测场”的角色。
小白类比:
真实机器人评测像真的开车上路考试,成本高、风险高。world model evaluator 像一个驾驶模拟器:先在模拟器里看你开得怎么样。
但关键问题是:这个模拟器的评分和真实上路表现一致吗?
一个典型流程是:
给定一个 policy
-> 让 policy 在真实初始场景上输出动作
-> world model 根据动作生成未来结果
-> evaluator 判断任务是否完成、是否失败、进度多少
-> 用这个结果近似真实机器人评测
最大风险是“模拟器偏心”:如果 world model 本身不懂某种失败,比如夹爪其实会打滑,但模型总是假设能抓住,那么它就会高估一些现实中会失败的 policy。
它在解决 DreamZero 的什么问题?
- 真实机器人评测昂贵;
- policy 迭代需要大量测试;
- 生成式 world model 可能提供更便宜的评估。
它推动了什么新问题?
最重要的是 ranking fidelity:
如果 world model 认为 A policy 比 B policy 好,真实世界里 A 真的更好吗?
这会变成一个非常重要的 benchmark/research direction。
#MultiWorld:从单机器人走向多 agent、多视角世界模型
论文: MultiWorld: Scalable Multi-Agent Multi-View Video World Models,arXiv:2604.18564。
MultiWorld 代表另一种扩展:世界里不一定只有一个机器人、一只手、一个视角。真实环境可能有多个人、多机器人、多摄像头、多物体交互。
比如一个厨房场景里,一个机器人在收盘子,另一个人在旁边移动杯子,桌上还有多个物体互相遮挡。单机器人 WAM 只需要预测“我做这个动作后杯子怎么动”;MultiWorld 类模型则要预测“我动、别人也动、多个视角看到的世界还要一致”。这更接近真实家庭/工厂环境。
DreamZero 主要证明“一个机器人可以用 WAM 控制自己”;MultiWorld 往前问的是:如果世界里还有其他主动体,WAM 还能不能预测未来?这时未来不再只由自己的动作决定,还取决于别人要做什么。
它在解决 DreamZero 的什么问题?
- DreamZero 更偏单机器人真实操作;
- 真实具身智能需要多主体交互;
- 多视角世界模型可以支持更复杂的场景理解和仿真。
它推动了什么新问题?
多 agent 世界模型会遇到更严重的组合爆炸:每个 agent 都有自己的动作和意图,世界未来不再由单一机器人决定。这会把 WAM 推向 multi-agent world modeling。
#5.5 把后续工作串起来:DreamZero 之后不是一条线,而是五个补丁方向
再次强调:下面这些方向还属于早期趋势信号,不是已经被社区完全验证的成熟谱系。但它们共同说明,DreamZero 把问题打开后,大家很自然地开始补五个缺口:
| DreamZero 暴露的问题 | 后续方向 | 代表工作 | 人话解释 |
|---|---|---|---|
| 太慢太重 | 高效/latent/action-centered WAM | GigaWorld-Policy, Being-H0.7 | 不一定把未来视频完整画出来,而是保留能帮助选动作的压缩未来表示 |
| 动作和视频不好对齐 | Action representation | Action Images, MV-VDP | 把动作翻译成视频模型看得懂的空间/图像语言 |
| RGB 不够控制相关 | Geometry/value/object-aware WAM | Unified 4D WAM, AIM | 抓东西失败常常不是因为 RGB 不像,而是深度、接触、可抓区域预测错了 |
| 想象可能是错的 | Trust / robustness / replanning | When to Trust Imagination, robustness study | 模型要知道什么时候该怀疑自己的想象 |
| 世界模型可否复用 | Simulator / evaluator / data engine | dWorldEval, MultiWorld | 会想象未来的模型也许能当模拟器和评测器,但必须验证它的排名是否和真实世界一致 |
所以,DreamZero 后续的核心不是“再做一个 DreamZero”,而是回答:
WAM 如何变得更快、更可信、更懂动作、更懂几何、更能被评估和复用?
#6. 用一张表看 DreamZero 前后脉络
| 阶段 | 代表工作 | 核心问题 | 方法 | DreamZero 如何继承/推进 |
|---|---|---|---|---|
| Model-based RL | Dreamer, MuZero, TD-MPC | 如何用模型想象未来提升决策 | latent dynamics, planning, imagined rollout | 继承“想象未来有用”,但转向大规模视频先验和真实机器人 zero-shot |
| 动作生成策略 | Diffusion Policy | 如何表达多峰连续动作 | diffusion over action chunks | 继承 action chunk generation,但把动作和未来视频联合建模 |
| 视频生成规划 | UniPi, RoboDreamer | 如何把语言目标变成未来视觉计划 | text/image-conditioned video generation + inverse dynamics | 从“先视频后动作”推进到 joint video-action model |
| 交互世界模型 | Genie, Genie2, UniSim | 如何从视频学可交互世界 | latent action, action-conditioned generation | 从抽象交互世界推进到真实机器人动作空间 |
| 机器人基础策略 | RT-1, RT-2, RT-X, Octo | 如何用大规模机器人数据训练通用策略 | VLA / direct policy | 批评 direct VLA 缺少物理动力学先验,引入 WAM |
| 近亲前身 | GR-1 | 视频生成预训练如何帮助机器人操作 | future image + action prediction | DreamZero 更明确提出 WAM = zero-shot policy |
| DreamZero | World Action Models are Zero-shot Policies | 世界模型能否直接成为 zero-shot policy | 14B video diffusion + joint video/action flow matching + closed-loop control | 锚点工作 |
| 后续效率化 | GigaWorld-Policy, Being-H0.7 | WAM 太慢太重 | action-centered / latent WAM | 从显式 RGB 想象转向高效控制相关想象 |
| 后续表示 | Action Images, MV-VDP, AIM | 动作如何进入视频模型 | action images, multi-view, spatial value maps | 探索更适合视频模型的 action/world representation |
| 后续可信度 | When to Trust Imagination, robustness study | WAM 什么时候可靠 | adaptive execution, robustness benchmark | 从“能想象”走向“知道何时相信想象” |
| 后续仿真评估 | dWorldEval, MultiWorld | world model 能否评估/生成数据 | diffusion world evaluator, multi-agent video world model | WAM 从 policy 扩展为数据飞轮和评测工具 |
#7. DreamZero 真正打开的科研问题
#7.1 World model 应该预测 RGB,还是预测 control-relevant state?
DreamZero 预测未来视频,这很直观,也方便继承视频扩散模型。但机器人控制真正需要的可能不是每个像素,而是:
- 目标物体在哪里;
- 接触是否发生;
- 夹爪和物体的相对关系;
- 物体是否稳定;
- 任务进度是否增加;
- 哪些区域可操作;
- 哪些未来是危险的。
所以一个很好的研究问题是:World model 到底应该预测什么,才能最帮助 action?
候选方向:semantic mask dynamics、object slots、contact map、affordance map、spatial value map、depth/point cloud、4D scene flow。
最小可做版本不一定要训练大视频模型。可以在现有机器人数据上比较几种辅助预测目标:RGB future、mask future、contact future、object trajectory future,看哪一种最能提升 policy 泛化。这样问题会更机制化:不是问“哪个模型更大”,而是问“哪种未来信息对控制最有用”。
#7.2 Action representation 是 WAM 的底层关键
动作如果只是低维 token,视频模型不一定容易理解。把动作变成图像、轨迹、flow、keypoint、contact map,也许更能对齐视频先验。
这可以形成一个很清晰的研究题:
What is the Right Action Token for Video World Models?
实验可以比较不同 action representation 对 zero-shot environment、cross-view、cross-embodiment、long-horizon manipulation 的影响。
最小可做版本可以固定同一个 video backbone,只替换 action 表示方式:低维动作、2D trajectory heatmap、3D keypoint、object-relative action。这样如果性能差异明显,就能说明“动作表示”本身是 WAM 能力的底层变量。
#7.3 什么时候相信想象?
DreamZero 的失败常来自 imagined future 错误。因此后续必须有 verifier / uncertainty / replanning 机制。
一个 WAM 控制系统不应该固定执行 K 步动作,而应该动态判断:
- imagined future 和真实观测是否一致;
- 当前动作是否偏离任务进度;
- 世界模型置信度是否下降;
- 是否进入 OOD 状态;
- 是否需要重新规划。
这非常适合做低成本科研,因为不一定要训练 14B WAM,可以在已有 policy/world model 上加 verifier。
最小版本甚至可以做一个二分类器:输入 imagined frame 和 executed frame,判断是否需要 replan。再进一步可以预测风险分数、任务进度偏差、接触是否失败。
#7.4 WAM 能不能成为 model-based RL 的 foundation dynamics?
Dreamer 是小模型 task-specific world model。DreamZero 是大规模预训练 world-action model。自然问题是:能不能用 foundation WAM 做 model-based RL?
如果 DreamZero 是“会做梦并直接行动”,WAM + MBRL 就是“先在梦里试很多种行动,再挑一个最可能成功的”。这和你关心的 model-based RL 很接近:关键不是模型能不能做梦,而是梦能不能用来安全改进策略。
挑战是 model exploitation:policy 可能利用 world model 的漏洞,在想象里成功、真实中失败。
需要研究:
- imagined rollout 的可信度筛选;
- uncertainty penalty;
- real-vs-imagined discriminator;
- reward / value 与生成视频对齐;
- hallucination control;
- offline RL + WAM + small real-world correction。
#7.5 Human video 到 robot policy 的 embodiment gap
DreamZero 展示 video-only human/robot demos 能提升 unseen tasks,但这还只是早期信号。真正难的是:人类手、机器人夹爪、双臂机器人、不同关节结构之间如何迁移?
可能要提取更抽象的中间表示:
- hand-object contact sequence;
- object trajectory;
- task phase;
- affordance region;
- subgoal state;
- object-centric manipulation graph。
这和“从互联网视频学习机器人技能”的长期愿景直接相关。
这里最核心的不是模仿人的手指动作,而是提取“物体发生了什么变化”。比如人手和夹爪完全不同,但“杯子从桌面移动到碗旁边”这个 object trajectory 是可以共享的。
#8. 我最推荐 wenjun 关注的 4 个切入点
如果按“低成本、贡献清晰、适合入门”的角度排序,我会这样看:
- 最推荐入手:可信想象 / verifier —— 方法和 benchmark 都容易做出清晰贡献;
- 机制性最强:action representation —— 能回答 WAM 底层变量是什么;
- 中等工程量:control-relevant prediction —— 更像 representation study;
- benchmark 型:evaluation fidelity —— 社区需要,但要设计好真实评测闭环。
#8.1 可信想象:WAM verifier / adaptive replanning
核心问题:世界模型会想象,但机器人需要知道什么时候不要相信想象。
可以做一个轻量 verifier:输入当前观测、imagined future、action sequence、语言目标和执行后的真实观测,输出 continue/replan、risk score、task progress estimate。
优点:
- 不需要从零训练大 WAM;
- 能直接接 DreamZero 的局限;
- 贡献清楚;
- 可以做 benchmark + method。
可能产出形式:一个 verifier 方法 + 一套 imagined-vs-real mismatch benchmark,证明它能减少 WAM 的错误执行。
#8.2 Action representation for video world models
核心问题:机器人动作应该怎样表示,才能让视频模型真正理解?
可以系统比较:低维 action token、action image、trajectory heatmap、contact map、3D keypoint/action field、object-relative action。
优点:
- 问题基础;
- 不只是刷性能;
- insight 强;
- 对 WAM 后续都会有参考价值。
可能产出形式:一篇 ablation-heavy paper,系统比较不同 action token 如何影响泛化、接触成功率和跨视角稳定性。
#8.3 Control-relevant world prediction
核心问题:机器人 world model 是否应该预测 RGB?还是应该预测 mask/contact/affordance/value?
可以设计多目标 world model,比较不同预测目标对 policy performance 和泛化的影响。
优点:
- 资源需求比训练 14B 视频模型低;
- 很容易形成机制解释;
- 与 DreamZero 后续 latent/object-centric/geometry-aware 趋势一致。
可能产出形式:一篇 representation study,证明某类未来预测目标比 RGB 更能提升控制泛化。
#8.4 WAM evaluation fidelity
核心问题:如果用生成式 world model 评估 policy,预测出来的 policy 排名是否可信?
可以收集多个 policy 的真实表现和 WAM 预测表现,比较 ranking correlation、failure mode coverage、OOD detection、contact error、long-horizon drift。
优点:
- 社区很需要;
- 不需要造最大模型;
- benchmark 型论文可行;
- 能连接 model-based RL 和 robot evaluation。
可能产出形式:一个 diagnostic suite / benchmark,衡量 world model 预测的 policy 排名和真实机器人排名是否一致。
#9. 对 DreamZero 的总体判断
DreamZero 不是终点,而是一个范式节点。
它之前,机器人基础模型大多在问:
如何让 VLM 输出动作?
DreamZero 开始问:
如果模型能想象世界未来,它能不能直接成为策略?
它之后,问题会继续推进为:
什么样的想象对控制真正有用?什么样的动作表示能和视频先验对齐?什么时候该相信想象?如何把 WAM 变成可训练、可评估、可闭环改进的机器人系统?
我的判断是:WAM 的长期价值不在于“生成一段好看的未来视频”,而在于它可能成为机器人智能里的 System 1 physical imagination:快速、直觉式地预测物理后果并给出动作。更高层的语言规划、任务分解、长期记忆和安全验证,则可能由另一个 System 2 planner / verifier 来完成。
对你来说,如果想做科研,不建议直接卷“训练一个更大的 DreamZero”。更好的切入点是围绕 DreamZero 暴露出的基础问题:
- 可信想象;
- 动作表示;
- 控制相关世界状态;
- WAM 评估可信度;
- foundation world model + model-based RL 的 hallucination control。
这些问题更基础、更机制性,也更符合你长期关注的 model-based RL、latent reasoning、agent 训练范式和能力形成机制。
#10. 代表工作清单
下面只列本文主线中反复出现的代表工作,不是完整 bibliography。
#DreamZero 本体
- Ye et al., World Action Models are Zero-shot Policies, arXiv:2602.15922.
<https://arxiv.org/abs/2602.15922>
#前置脉络
- Hafner et al., Dream to Control: Learning Behaviors by Latent Imagination, Dreamer.
- Hafner et al., Mastering Diverse Domains through World Models, DreamerV3.
- Schrittwieser et al., Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model, MuZero.
- Hansen et al., Temporal Difference Learning for Model Predictive Control, TD-MPC.
- Hansen et al., TD-MPC2: Scalable, Robust World Models for Continuous Control.
- Chi et al., Diffusion Policy: Visuomotor Policy Learning via Action Diffusion.
- Du et al., Learning Universal Policies via Text-Guided Video Generation, UniPi.
- Bruce et al., Genie: Generative Interactive Environments.
- Yang et al., UniSim: Learning Interactive Real-World Simulators.
- Zhu et al., RoboDreamer: Learning Compositional World Models for Robot Imagination.
- Brohan et al., RT-1: Robotics Transformer for Real-World Control at Scale.
- Brohan et al., RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.
- Open X-Embodiment / RT-X collaboration.
- Octo Model Team, Octo: An Open-Source Generalist Robot Policy.
- Wu et al., GR-1: Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation.
#DreamZero 之后/同期 WAM 方向
- GigaWorld-Policy: An Efficient Action-Centered World--Action Model, arXiv:2603.17240.
- Being-H0.7: A Latent World-Action Model from Egocentric Videos, arXiv:2605.00078.
- Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising, arXiv:2604.26694.
- Action Images: End-to-End Policy Learning via Multiview Video Generation, arXiv:2604.06168.
- Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model, arXiv:2604.03181.
- AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps, arXiv:2604.11135.
- When to Trust Imagination: Adaptive Action Execution for World Action Models, arXiv:2605.06222.
- Do World Action Models Generalize Better than VLAs? A Robustness Study, arXiv:2603.22078.
- dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model, arXiv:2604.22152.
- MultiWorld: Scalable Multi-Agent Multi-View Video World Models, arXiv:2604.18564.
#11. 最后一句话
DreamZero 最值得记住的不是某个具体指标,而是它把机器人策略学习的问题重新表述了:
机器人不是只需要“看懂指令然后输出动作”,而是需要在执行前形成一个可行动的未来想象;真正强的机器人 foundation model,可能会是 vision-language planner、world-action imagination、verifier 和 memory/RL 系统的组合。
这正是 WAM 方向从 DreamZero 往后最值得看的地方。