主题归档 · 2026-04-26
系统梳理 WAM(World Action Model)截至 2026-04-26 的发展脉络:其前史如何从世界模型、VLA 和视频基础模型三条线汇合而来;每个代表工作相对之前方法解决了什么问题;又引入了哪些新的困难;以及 WAM 当前真正卡在哪里。
主题归档 · 2026-04-26
系统梳理机器人基础模型从 RT-1、RT-2、Octo、OpenVLA 等 Vision-Language-Action 路线,如何因动作生成、闭环控制、长时程推理与泛化鲁棒性的瓶颈,进一步演进到 WAM(World Action Model)路线,并分析 WAM 的核心思想、解决的问题及其新挑战。
主题归档 · 2026-04-26
梳理具身智能 Sim-to-Real 从精确建模、Domain Randomization、Real2Sim2Real、高性能仿真、Embodied AI Simulator 到生成式仿真和世界模型的研究逻辑与演化。
主题归档 · 2026-04-25
系统梳理视频生成从 GAN/VAE 时代、扩散范式崛起、级联与高分辨率、DiT 与大规模开源,到 2026 年多模态音视频联合生成与世界复杂性竞争的发展逻辑。
论文精读 · 2026-04-20
HY-World 2.0 不只是又一个 3D 生成模型,而是在尝试统一重建、生成、扩展与模拟四类能力,走向可交互的 3D 世界底座。
论文精读 · 2026-04-20
OpenMythos 不是 Anthropic Mythos 的内幕揭秘,而是一套把 Recurrent-Depth Transformer、latent reasoning、ACT、稳定递归和 MoE 拼装起来的高强度理论重建框架。
主题归档
**3D / 时空 VAE(Variational Autoencoder)**,可以理解成:
论文精读
**标题**:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
论文精读
Vega 3D 可以理解成 **把 Vega / Vega-Lite 这类声明式可视化思路,延伸到三维空间中的一套图形表达方式**:你不是直接逐点手写底层 3D 渲染逻辑,而是用更高层的数据、编码(encoding)、标记(mark)、场景(scene)和交互描述,去生成 3D 可视化结果。