主题归档 2026-04-25 ★★★★★ video-generation diffusion autoregressive world-model survey papers

#视频生成发展脉络全景梳理：从早期生成到 2026 世界复杂性竞争

#先给结论：视频生成到底是怎么一路发展过来的

如果把视频生成这几年的进展压缩成一句话，那就是：

这个领域一直在从“会动”走向“像真的世界在持续运转”。

它的主线不是单纯把图像生成搬到视频上，而是在不断解决四个越来越难的问题：

先生成像样的单帧内容 —— 解决“能不能看”
再让帧与帧之间连贯 —— 解决“会不会抖、会不会跳”
再把长度、分辨率、运动复杂度做上去 —— 解决“够不够用”
最后把视频当成世界建模问题 —— 解决“是否真的理解空间、物体、动作、因果和可控性”

所以整个演化逻辑非常清楚：

早期方法主要在想：怎么生成一段视频而不是一张图
中期方法在想：怎么把图像生成的能力迁移到视频
扩散时代在想：怎么同时搞定质量、时序一致性和可扩展性
2024 以后则明显转向：怎么把视频生成做成大模型、做成世界模型、做成多模态系统
到 2026，竞争焦点已经不只是 text-to-video，而是：

- 多模态参考与编辑

- 音视频原生联合生成

- 长时序一致性

- 复杂世界中的多主体、多事件、多镜头生成

- 更像“内容引擎”甚至“世界模拟器”

下面按发展脉络展开。

#一、扩散大爆发之前：视频生成为什么一直难

在扩散模型真正接管主流之前，视频生成长期比图像生成难很多，原因并不神秘：

#1. 视频比图像多了一个“时间维”

图像生成只需要让一张图局部合理、全局像样。

视频生成还得保证：

上一帧和下一帧不能断裂
主体身份不能乱变
相机运动要连续
动作不能违背物理直觉
长序列里不能越生成越崩

也就是说，视频不是“很多好图拼起来”，而是“一个连续演化过程”。

#2. 训练成本远高于图像

视频 token / pixel 量远大于图像，导致：

显存和算力压力爆炸
大规模高质量视频数据更难收集和清洗
文本-视频对齐数据远少于文本-图像

#3. 时序一致性是结构性难题

早期很多方法的问题不是静态画面不够好，而是：

人脸会漂
背景会抖
物体会忽隐忽现
动作逻辑会断

这说明视频生成真正难的，不是“每帧都好看”，而是“同一个世界要在时间上持续成立”。

因此，早期 GAN / VAE / autoregressive 视频方法虽然开了路，但很难同时兼顾：

清晰度
运动自然性
长度
训练稳定性
文本控制能力

真正改变局面的，是图像扩散模型成熟之后，视频开始吃到图像生成基础设施的红利。

#二、关键转折：2022 年为什么是现代视频生成元年

2022 年是决定性的一年。不是因为之前没有视频生成，而是因为这年开始，领域终于形成了一条可扩展主线：

把图像生成的强 prior、强文本对齐和强视觉质量，系统性迁移到视频。

这个阶段有三篇必须讲的经典工作。

#三、经典工作 1：Video Diffusion Models（2022）

论文： Video Diffusion Models

链接： https://arxiv.org/abs/2204.03458

#它之前的问题是什么

在这篇工作之前，视频生成方法普遍面临两个硬伤：

质量不稳定，生成结果容易糊、抖、碎
即便能做短视频，也很难自然扩展到更长、更高分辨率

大家已经知道扩散模型在图像上非常强，但视频上怎么用，仍然不清楚。

#它的核心贡献是什么

这篇工作做了几件很关键的事：

把标准图像扩散架构自然扩展到视频
证明图像数据 + 视频数据联合训练是有帮助的
提出空间/时间扩展式采样，让视频可以向更长、更高分辨率扩展

#它到底解决了什么

它解决的不是“文本视频生成已经完成”——那还早。

它真正解决的是一个更基础的问题：

扩散模型可以成为视频生成的主干范式，而且不仅能生成，还能做 scalable 的视频生成。

#它对后续的影响

后续几乎所有现代视频生成系统，都继承了这篇工作的世界观：

视频生成也应该用 diffusion
图像知识应该迁移到视频
视频生成需要分层 / 级联 / 扩展式建模，而不是一次性硬生成全部高维时空体

可以说，这篇是视频 diffusion 时代的开篇。

#四、经典工作 2：CogVideo（2022）

论文： CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

链接： https://arxiv.org/abs/2205.15868

#它之前的问题是什么

即使知道视频生成要做大规模建模，仍然有两个现实问题：

从零训练 text-to-video 太贵
高质量文本-视频数据太少，文本和运动的对齐很差

#它的关键思路

CogVideo 的判断非常重要：

不要从零学视频，先继承已经训练好的文本到图像能力。

它从 CogView2 这样的 text-to-image 基座出发，再往视频扩展，并引入多帧率层级训练策略，处理不同时间尺度的运动建模。

#它要解决的根问题

它主要在解决：

怎么降低视频大模型训练成本
怎么利用图像生成里已经学到的语义和视觉知识
怎么让文本驱动的视频模型真正吃到预训练红利

#它为什么经典

因为它把“视频生成是大模型问题”这件事讲明白了。

在今天看，CogVideo 还没有后来 diffusion 系统那样强的视觉质量和工业成熟度，但它早早指出：

预训练迁移是必要的
视频模型会越来越大
数据与训练策略本身就是核心技术

这个判断后来被一再验证。

#五、经典工作 3：Make-A-Video（2022）

论文： Make-A-Video: Text-to-Video Generation without Text-Video Data

链接： https://arxiv.org/abs/2209.14792

#它之前的问题是什么

这几乎是 2022 年最现实的痛点：

文本-图像数据很多
无标注视频很多
但高质量文本-视频配对数据不够

那能不能：

用文本-图像学“长什么样”
用视频学“怎么动”
最后拼出 text-to-video？

#它的回答

Make-A-Video 的核心就是：可以。

它把图像生成模型作为基座，再补进时空模块，分别从图像对齐和视频运动里学习，绕开了对大规模文本-视频配对数据的强依赖。

#它到底解决了什么

它解决的是：

text-to-video 对高质量 paired text-video 的依赖能不能被削弱？

这件事非常关键，因为它改变了整个行业对数据瓶颈的看法：

视频生成不一定非得完全靠文本-视频 paired data 起步
图像模型的先验极其宝贵
时空模块可以作为增量能力接进来

#它的历史位置

这篇工作很像“从图像到视频迁移路线”的代表作。它不仅是学术结果，更是工业思路：

先把图像做好
再把时间维接上
尽量重用已有基座

这条路线后来在大量模型里都能看到影子。

#六、2022 年另一条线：Imagen Video 与级联系统

论文： Imagen Video: High Definition Video Generation with Diffusion Models

链接： https://arxiv.org/abs/2210.02303

#它之前的问题是什么

前面的模型虽然证明了能生成视频，但普遍存在：

分辨率不够高
采样成本大
长视频和高分辨率一起做很困难

#Imagen Video 的关键判断

它延续了图像扩散中的 cascade 思路，明确告诉大家：

高质量视频生成不能指望一个模型一步到位，必须分阶段：先出粗视频，再做时空超分。

#它在解决什么

它解决的核心问题是：

如何把视频质量从“研究 demo”推向“更接近可用内容”
如何在不直接建模完整高维视频分布的情况下得到高分辨率结果

#它对后来的影响

后续很多视频大模型的系统结构都带着它的影子：

base model 负责粗时空结构
super-resolution / interpolation / refinement 模块负责清晰度和帧率
系统工程开始变得和模型本体一样重要

到这里，视频生成领域第一次形成了比较完整的工业路线图。

#七、2023：从“能生成”转向“更便宜、更稳、更可控”

到了 2023 年，领域重点明显变了。

2022 年大家还在证明“这事能不能成”，2023 年则在追问：

能不能更便宜？
能不能更快利用已有图像模型？
能不能做编辑、控制、一致性增强？

这时出现了一批非常有代表性的工作。

#八、经典工作 4：Text2Video-Zero（2023）

论文： Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

链接： https://arxiv.org/abs/2303.13439

#它之前的问题是什么

前面的方法几乎都要专门训练 video model，这很贵。

问题来了：

如果我只有一个强大的 text-to-image diffusion 模型，能不能几乎不训练，直接把它变成视频生成器？

#它的核心思路

Text2Video-Zero 的思路相当漂亮：

给 latent 注入运动动态
用 cross-frame attention 让各帧围绕首帧保持上下文和主体一致性
基本不做额外大规模视频训练

#它要解决什么

它解决的是资源门槛问题：

小团队有没有机会做视频生成
已有图像模型能不能被最大化复用
视频生成能不能从“训练大模型”转成“重编程大模型”

#它为什么重要

因为它证明了一件很刺激的事：

视频能力不一定全靠重新训练，也可以靠对图像模型结构与注意力机制的巧妙改造。

虽然这条路线不是后来最强 industrial path，但它极大推动了低成本视频生成、视频编辑和开源复现生态。

#九、2023 另一条重要主线：从短视频生成走向更真实、更大规模

论文： Photorealistic Video Generation with Diffusion Models（W.A.L.T）

链接： https://arxiv.org/abs/2312.06662

#它之前的问题是什么

扩散视频模型有三个长期矛盾：

高保真 vs 训练稳定性
大规模建模 vs 内存成本
图像能力 vs 视频能力常常分开学，迁移不顺

#它的关键贡献

W.A.L.T 这篇工作很有代表性，因为它把一些后面会越来越主流的设计明确化了：

统一图像与视频的 latent space
用causal encoder 同时压缩图像和视频
用window attention 处理空间与时空建模中的效率问题
最终形成级联 text-to-video 系统

#它在试图解决什么

核心是：

视频生成不能总是作为图像生成的附属实验，它需要面向真实大规模训练的独立系统设计。

这就意味着研究重点从“证明可能性”进一步转向：

统一表示
高效 attention
更系统的架构设计
更逼真的视觉结果

这其实已经非常接近 2024 之后的大模型思路了。

#十、2024：Sora 震动行业，视频生成的叙事变了

2024 年真正改变行业叙事的，是 Sora。

严格说，Sora 对外公开的信息不像典型论文那样完整，很多讨论依赖技术解读、二手分析和系统推断。但它的重要性不在于某一个公开公式，而在于它改变了大家对视频生成终局的理解。

#Sora 之前的主流叙事

视频生成是图像生成的延伸任务
重点是清晰度、时长、时序一致性
主要应用是内容生成

#Sora 之后的主流叙事

视频生成是世界建模的表现形式
模型需要理解：

- 三维空间

- 物体持续性

- 多主体交互

- 相机运动

- 物理直觉

- 长时序事件展开

目标不只是生成片段，而是“模拟一个能持续运转的世界”

#Sora 到底解决了什么问题

Sora 不是第一次让视频变清晰，也不是第一次让 prompt 生视频。

它真正让行业重新排序的问题是：

视频生成模型能不能展现出接近世界模拟器的统一能力？

也就是把下面这些过去分散的指标，合并成一个整体能力：

镜头语言
空间连贯
动作自然
多事件协同
长镜头稳定性
高级语义理解

Sora 的意义，相当于把视频生成从“单任务生成”抬到了“基础模型 / 世界模型”的层级。

#十一、2024-2025：Open-Sora、HunyuanVideo、Wan —— 开源生态开始追赶闭源前沿

Sora 点燃预期后，接下来真正重要的问题变成了：

开源社区能不能追上？

这时出现了几条很关键的工作线。

#十二、经典工作 5：HunyuanVideo（2024/2025）

论文： HunyuanVideo: A Systematic Framework For Large Video Generative Models

链接： https://arxiv.org/abs/2412.03603

#它之前的问题是什么

Sora 之后，行业都知道视频大模型要做大、做强、做系统，但开源阵营仍然缺：

足够大的基础模型
体系化的数据清洗与训练方案
真正工程化的训练/推理基础设施
能和闭源产品正面对比的完整技术报告

#HunyuanVideo 的核心价值

这篇工作最重要的不是某个单点 trick，而是“系统性”。

从 abstract 就能看出，它明确把视频生成看成一套综合工程：

数据构建
架构设计
渐进式 scaling 与训练
大规模训练和推理基础设施
文本对齐、动态质量、镜头语言等指标的统一优化

#它想解决什么

它想解决的是：

开源视频模型如何从 demo 级别，跨到真正的大模型基础设施级别。

#为什么它重要

因为这代表开源视频生成从“复现某个点子”升级到“建设完整工业技术栈”。

它的历史地位很像：

对图像生成来说，大家从小模型 demo 走向 Stable Diffusion / SDXL 生态
对视频生成来说，HunyuanVideo 是类似的“生态拐点工作”之一

#十三、经典工作 6：Wan（2025）

论文： Wan: Open and Advanced Large-Scale Video Generative Models

链接： https://arxiv.org/abs/2503.20314

#它之前的问题是什么

到 2025 年，开源视频模型不再只比“能不能生成”，而开始比：

能不能覆盖更多下游任务
能不能做 image-to-video、editing、personalization
能不能在消费级显卡上也有可用版本
能不能形成真正完整的产品级模型家族

#Wan 的关键回答

Wan 很明确地把自己定位成一套开放的视频 foundation model family。

abstract 里有几个很有代表性的关键词：

新的视频 VAE
scalable pre-training strategies
大规模数据构建
automated evaluation metrics
1.3B / 14B 双尺度模型
覆盖多种 downstream tasks
消费级 GPU 可运行版本

#它具体在补哪块短板

Wan 在补的是“开源视频模型的完整产品形态”：

不是只卷最大模型，也卷小模型可用性
不是只做单一 T2V，也做 I2V / editing / personalized generation
不是只报若干样例，而是更强调一整套 suite

#它的历史意义

Wan 代表着视频生成进入一个更成熟阶段：

大家开始把视频模型看成平台，而不是单一论文结果。

这是很重要的变化。

因为当一个领域从“单点 SOTA”变成“模型家族 + 任务覆盖 + 推理成本分层”，说明它已经开始走向真正的基础设施化。

#十四、2025 的另一条变化：竞争焦点从纯 T2V 扩展到统一多任务与可控生成

到了 2025 年，纯文本生视频已经不再是唯一指标。

行业开始更关心：

参考图 / 参考视频条件下的一致性生成
视频编辑
多镜头控制
主体一致性
音频对齐
多模态输入统一接口

这背后的逻辑很清楚：

用户真正需要的不是“随机生成一段视频”，而是“在约束条件下稳定生成可用内容”。

所以 2025 年之后的进步，越来越多发生在：

conditioning 设计
reference-based generation
编辑与重定向
更统一的训练分布
更复杂的评测维度

也就是说，领域从“会生成”走向“可生产”。

#十五、2026：最新竞争焦点是什么

到今天（2026-04-25），视频生成最新一轮竞争，已经进一步升级。

现在领先工作在拼的，不只是单个视频片段的漂亮程度，而是下面这些能力是否能一起成立：

多模态统一输入：text / image / audio / video 一起支持
原生音视频联合生成：不是先出视频后配音，而是联合建模
复杂世界生成：多主体、多事件、多风格、多镜头切换
强编辑与参考能力：多图、多段视频、多段音频作为条件
速度分层：既要高质量版本，也要低延迟 fast 版本

这时，“世界复杂性”开始成为一个非常准确的关键词。

#十六、经典工作 7：Seedance 2.0（2026）

论文： Seedance 2.0: Advancing Video Generation for World Complexity

链接： https://arxiv.org/abs/2604.14148

#它之前的问题是什么

前一阶段模型虽然已经很强，但通常还存在下面几个割裂：

文本、图像、视频、音频输入往往分不同模型或不同 pipeline
音频常常不是原生联合生成，而是外挂模块
复杂条件参考能力不足
生成“单个好片段”可以，但面对复杂世界、多约束、多模态编辑时容易崩

#Seedance 2.0 的核心主张

这篇工作从标题就把野心写出来了：

不是只提升视频质量，而是推进对世界复杂性的生成能力。

从 abstract 看，它强调：

原生多模态音视频联合生成
统一高效的大规模架构
同时支持 text / image / audio / video 四种输入
很强的多模态参考与编辑能力
4 到 15 秒的原生音视频输出
480p / 720p 原生分辨率
fast 版本支持低时延场景

#它在解决什么

Seedance 2.0 想解决的核心问题是：

视频生成模型如何从“prompt-driven generator”升级成“多模态内容引擎”。

也就是说，真正难的已经不是一句话生视频，而是：

给几张图、几段音频、几段视频，能不能稳定地合成
音视频能不能从根上同步
多主体复杂场景能不能不乱
编辑能力能不能成为模型内生能力，而不是外挂 patchwork

#为什么它代表 2026 的趋势

因为这篇工作清楚说明了：

视频生成已经不再孤立
它正被重构成多模态生成系统
评价标准开始更像“复杂内容生产能力”，而不是单一视觉打分

这是 2026 非常鲜明的方向。

#十七、这条发展逻辑里，还有哪些关键暗线

上面按论文串了一条主线，但真正理解这个领域，还要看到几条“暗线”。

#暗线 1：从像素空间到 latent space

这是视频生成能扩大的前提。

如果一直在原始像素空间直接建模，时空成本太高。进入 latent space 之后，模型才有机会：

上大模型
上更长视频
上更复杂 conditioning
做 cascade / refinement

所以 latent video VAE / tokenizer / representation learning，是底层基础设施，而不是配角。

#暗线 2：从 U-Net 到 Transformer / DiT 化

早期视频扩散大量沿用 U-Net 直觉，但随着规模增长，Transformer / DiT 路线越来越强。

原因很简单：

更适合大规模扩展
更适合统一图像 / 视频 / 多模态 token 建模
更方便接入 foundation model 训练范式

2024-2026 的许多强模型，本质上都在往“video foundation model”靠，这自然推动了 Transformer 化。

#暗线 3：从单任务到 unified model

过去常见的是：

T2V 一个模型
I2V 一个模型
编辑一个模型
音频一个模型

而现在越来越多系统在追求统一：

同一个骨干支持多输入模态
同一个模型覆盖生成、编辑、参考、重定向
同一套 latent / tokenizer / conditioning 接口服务多个任务

这是 foundation model 化的典型信号。

#暗线 4：从“视觉质量”到“世界复杂性”

这是最关键的一条。

早期评估关心：

清晰不清晰
漂不漂
prompt 对不对

现在越来越关心：

复杂交互是否成立
空间关系是否稳定
主体 identity 是否持续
多镜头叙事是否自然
音视频因果是否对齐
长时序事件是否自洽

这说明视频生成正在靠近 world model，而不仅是视觉合成器。

#十八、如果把经典工作串成一条“问题接力链”

这是最值得记住的部分。

#1. Video Diffusion Models

要解决：扩散能不能成为视频生成主干？视频能不能被分层扩展？

#2. CogVideo

要解决：视频大模型能不能继承图像预训练，而不是从零开始？

#3. Make-A-Video

要解决：没有大规模 text-video paired data，能不能也做强 T2V？

#4. Imagen Video

要解决：如何把视频做高清、做级联、做系统化高质量生成？

#5. Text2Video-Zero

要解决：能不能不重训大视频模型，而是低成本重编程图像 diffusion？

#6. W.A.L.T

要解决：图像与视频能不能统一 latent 表示，并在效率与真实感上进一步推进？

#7. Sora（作为行业拐点）

要解决：视频生成能不能表现出世界模型级别的空间、动作、镜头和事件理解？

#8. HunyuanVideo

要解决：开源视频模型如何形成完整的大模型系统栈，与闭源前沿正面对抗？

#9. Wan

要解决：开源视频模型如何从单点能力，升级为覆盖多任务、多尺寸、可部署的平台化模型家族？

#10. Seedance 2.0

要解决：视频生成如何升级为原生多模态音视频联合生成系统，并应对复杂世界生成与编辑？

这条链看完，发展逻辑就很清楚了：

从“视频能不能生成”，到“视频怎么生成得更好”，再到“视频模型是否能成为多模态世界内容引擎”。

#十九、今天这个方向最核心的未解问题是什么

虽然 2026 已经很强，但真正的难题还远没结束。

#1. 长时序一致性仍然脆弱

短视频明显进步很大，但真正长剧情、多事件推进、细节持续一致，仍然很难。

#2. 复杂物理与因果仍然不稳定

模型常常能“看起来像懂”，但在真正复杂交互、接触关系、物体约束上仍会露馅。

#3. 可控性和自由度始终在 trade-off

条件越多，模型越容易被束缚；自由度越高，又越容易跑偏。

#4. 评测严重落后于模型能力

FID、FVD 之类指标很难完整覆盖：

叙事合理性
复杂交互
空间稳定性
镜头语言
音视频同步

#5. 世界模型叙事还没有真正闭环

“像 world model”不等于“真 world model”。

真正的世界模型还需要更强的：

可交互性
可持续模拟
明确的状态演化
规划与反事实能力

目前很多视频模型更像“世界感很强的生成器”，还不是真正能稳定支持 agent 交互和持续推演的模拟器。

#二十、我对 2026 这个时间点的判断

如果你问我：到 2026 今天，视频生成最本质的变化是什么？

我的判断是：

视频生成已经从一个视觉生成子任务，变成了多模态基础模型竞争的核心战场之一。

今天比的早已不是单个 demo，而是：

数据体系
tokenizer / VAE / latent 表示
DiT / Transformer 主干
训练稳定性与 scaling
多任务统一
多模态联合生成
世界复杂性理解
产品化速度与成本分层

换句话说，视频生成已经进入“基础设施战争”阶段。

而这也意味着，后面的突破未必只来自更大的模型，还可能来自：

更好的世界表示
更长时序训练机制
更结构化的物理与 3D 归纳偏置
更统一的音视频动作状态空间
从被动生成走向可交互世界模拟

#二十一、最后用一句话概括整个发展脉络

如果非要把这篇长文压成一句话，那就是：

视频生成的发展逻辑，本质上是在不断把图像生成的“会画”，升级成时间维上的“会演”，再升级成多模态条件下的“会构造一个持续成立的世界”。

而 2026 的最新前沿，已经不满足于 text-to-video 本身，开始竞争：

谁更像多模态内容引擎
谁更能处理复杂世界
谁更接近真正的 world model

这才是理解整个领域最重要的主线。

#参考论文与里程碑

Video Diffusion Models (2022)

https://arxiv.org/abs/2204.03458

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers (2022)

https://arxiv.org/abs/2205.15868

Make-A-Video: Text-to-Video Generation without Text-Video Data (2022)

https://arxiv.org/abs/2209.14792

Imagen Video: High Definition Video Generation with Diffusion Models (2022)

https://arxiv.org/abs/2210.02303

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators (2023)

https://arxiv.org/abs/2303.13439

Photorealistic Video Generation with Diffusion Models / W.A.L.T (2023)

https://arxiv.org/abs/2312.06662

Sora as a World Model? A Complete Survey on Text-to-Video Generation (survey, updated 2026)

https://arxiv.org/abs/2403.05131

HunyuanVideo: A Systematic Framework For Large Video Generative Models (2024/2025)

https://arxiv.org/abs/2412.03603

Wan: Open and Advanced Large-Scale Video Generative Models (2025)

https://arxiv.org/abs/2503.20314

Seedance 2.0: Advancing Video Generation for World Complexity (2026)

https://arxiv.org/abs/2604.14148