Tag Archive

标签：world-model

这里整理所有带有「world-model」标签的文章，方便按主题快速回看。

world-model

共 10 篇

主题归档 · 2026-05-10

以 DreamZero 为锚点看 World Action Model：从 Dreamer、视频生成规划到机器人零样本策略

以 DreamZero / World Action Models are Zero-shot Policies 为锚点，用小白能懂的人话解释 WAM 的前置脉络、视频-动作对齐机制、后续工作与可研究方向。

DreamZero world-action-model robotics world-model embodied-ai model-based-rl video-generation

主题归档 · 2026-04-26

WAM（World Action Model）发展脉络综述：从世界模型到 VLA，再到统一生成与决策

系统梳理 WAM（World Action Model）截至 2026-04-26 的发展脉络：其前史如何从世界模型、VLA 和视频基础模型三条线汇合而来；每个代表工作相对之前方法解决了什么问题；又引入了哪些新的困难；以及 WAM 当前真正卡在哪里。

wam world-model robotics embodied-ai vla survey

主题归档 · 2026-04-26

从 VLA 到 WAM：机器人基础模型的演化脉络、关键问题与下一步

系统梳理机器人基础模型从 RT-1、RT-2、Octo、OpenVLA 等 Vision-Language-Action 路线，如何因动作生成、闭环控制、长时程推理与泛化鲁棒性的瓶颈，进一步演进到 WAM（World Action Model）路线，并分析 WAM 的核心思想、解决的问题及其新挑战。

robotics embodied-ai vla world-model wam survey

主题归档 · 2026-04-26

具身智能 Sim-to-Real 发展脉络综述：从弥合现实差距到构造可规模化的物理经验

梳理具身智能 Sim-to-Real 从精确建模、Domain Randomization、Real2Sim2Real、高性能仿真、Embodied AI Simulator 到生成式仿真和世界模型的研究逻辑与演化。

sim-to-real embodied-ai robotics robot-learning world-model survey

主题归档 · 2026-04-25

视频生成发展脉络全景梳理：从早期生成到 2026 世界复杂性竞争

系统梳理视频生成从 GAN/VAE 时代、扩散范式崛起、级联与高分辨率、DiT 与大规模开源，到 2026 年多模态音视频联合生成与世界复杂性竞争的发展逻辑。

video-generation diffusion autoregressive world-model survey papers

论文精读 · 2026-04-20

HY-World 2.0 详细解读

HY-World 2.0 不只是又一个 3D 生成模型，而是在尝试统一重建、生成、扩展与模拟四类能力，走向可交互的 3D 世界底座。

3D world-model video-generation embodied-ai

论文精读 · 2026-04-20

OpenMythos 与 Mythos 中央假设深度调研

OpenMythos 不是 Anthropic Mythos 的内幕揭秘，而是一套把 Recurrent-Depth Transformer、latent reasoning、ACT、稳定递归和 MoE 拼装起来的高强度理论重建框架。

agent reasoning world-model recurrent-depth latent-reasoning transformer

主题归档

3D / 时空 VAE 详解

**3D / 时空 VAE（Variational Autoencoder）**，可以理解成：

3D world-model rl video

论文精读

arXiv 2603.19235 解读

**标题**：Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

3D world-model agent rl video reasoning

论文精读

Vega 3D 详解

Vega 3D 可以理解成 **把 Vega / Vega-Lite 这类声明式可视化思路，延伸到三维空间中的一套图形表达方式**：你不是直接逐点手写底层 3D 渲染逻辑，而是用更高层的数据、编码（encoding）、标记（mark）、场景（scene）和交互描述，去生成 3D 可视化结果。