#视频生成发展脉络全景梳理:从早期生成到 2026 世界复杂性竞争
#先给结论:视频生成到底是怎么一路发展过来的
如果把视频生成这几年的进展压缩成一句话,那就是:
这个领域一直在从“会动”走向“像真的世界在持续运转”。
它的主线不是单纯把图像生成搬到视频上,而是在不断解决四个越来越难的问题:
- 先生成像样的单帧内容 —— 解决“能不能看”
- 再让帧与帧之间连贯 —— 解决“会不会抖、会不会跳”
- 再把长度、分辨率、运动复杂度做上去 —— 解决“够不够用”
- 最后把视频当成世界建模问题 —— 解决“是否真的理解空间、物体、动作、因果和可控性”
所以整个演化逻辑非常清楚:
- 早期方法主要在想:怎么生成一段视频而不是一张图
- 中期方法在想:怎么把图像生成的能力迁移到视频
- 扩散时代在想:怎么同时搞定质量、时序一致性和可扩展性
- 2024 以后则明显转向:怎么把视频生成做成大模型、做成世界模型、做成多模态系统
- 到 2026,竞争焦点已经不只是 text-to-video,而是:
- 多模态参考与编辑
- 音视频原生联合生成
- 长时序一致性
- 复杂世界中的多主体、多事件、多镜头生成
- 更像“内容引擎”甚至“世界模拟器”
下面按发展脉络展开。
#一、扩散大爆发之前:视频生成为什么一直难
在扩散模型真正接管主流之前,视频生成长期比图像生成难很多,原因并不神秘:
#1. 视频比图像多了一个“时间维”
图像生成只需要让一张图局部合理、全局像样。
视频生成还得保证:
- 上一帧和下一帧不能断裂
- 主体身份不能乱变
- 相机运动要连续
- 动作不能违背物理直觉
- 长序列里不能越生成越崩
也就是说,视频不是“很多好图拼起来”,而是“一个连续演化过程”。
#2. 训练成本远高于图像
视频 token / pixel 量远大于图像,导致:
- 显存和算力压力爆炸
- 大规模高质量视频数据更难收集和清洗
- 文本-视频对齐数据远少于文本-图像
#3. 时序一致性是结构性难题
早期很多方法的问题不是静态画面不够好,而是:
- 人脸会漂
- 背景会抖
- 物体会忽隐忽现
- 动作逻辑会断
这说明视频生成真正难的,不是“每帧都好看”,而是“同一个世界要在时间上持续成立”。
因此,早期 GAN / VAE / autoregressive 视频方法虽然开了路,但很难同时兼顾:
- 清晰度
- 运动自然性
- 长度
- 训练稳定性
- 文本控制能力
真正改变局面的,是图像扩散模型成熟之后,视频开始吃到图像生成基础设施的红利。
#二、关键转折:2022 年为什么是现代视频生成元年
2022 年是决定性的一年。不是因为之前没有视频生成,而是因为这年开始,领域终于形成了一条可扩展主线:
把图像生成的强 prior、强文本对齐和强视觉质量,系统性迁移到视频。
这个阶段有三篇必须讲的经典工作。
#三、经典工作 1:Video Diffusion Models(2022)
论文: Video Diffusion Models
链接: https://arxiv.org/abs/2204.03458
#它之前的问题是什么
在这篇工作之前,视频生成方法普遍面临两个硬伤:
- 质量不稳定,生成结果容易糊、抖、碎
- 即便能做短视频,也很难自然扩展到更长、更高分辨率
大家已经知道扩散模型在图像上非常强,但视频上怎么用,仍然不清楚。
#它的核心贡献是什么
这篇工作做了几件很关键的事:
- 把标准图像扩散架构自然扩展到视频
- 证明图像数据 + 视频数据联合训练是有帮助的
- 提出空间/时间扩展式采样,让视频可以向更长、更高分辨率扩展
#它到底解决了什么
它解决的不是“文本视频生成已经完成”——那还早。
它真正解决的是一个更基础的问题:
扩散模型可以成为视频生成的主干范式,而且不仅能生成,还能做 scalable 的视频生成。
#它对后续的影响
后续几乎所有现代视频生成系统,都继承了这篇工作的世界观:
- 视频生成也应该用 diffusion
- 图像知识应该迁移到视频
- 视频生成需要分层 / 级联 / 扩展式建模,而不是一次性硬生成全部高维时空体
可以说,这篇是视频 diffusion 时代的开篇。
#四、经典工作 2:CogVideo(2022)
论文: CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
链接: https://arxiv.org/abs/2205.15868
#它之前的问题是什么
即使知道视频生成要做大规模建模,仍然有两个现实问题:
- 从零训练 text-to-video 太贵
- 高质量文本-视频数据太少,文本和运动的对齐很差
#它的关键思路
CogVideo 的判断非常重要:
不要从零学视频,先继承已经训练好的文本到图像能力。
它从 CogView2 这样的 text-to-image 基座出发,再往视频扩展,并引入多帧率层级训练策略,处理不同时间尺度的运动建模。
#它要解决的根问题
它主要在解决:
- 怎么降低视频大模型训练成本
- 怎么利用图像生成里已经学到的语义和视觉知识
- 怎么让文本驱动的视频模型真正吃到预训练红利
#它为什么经典
因为它把“视频生成是大模型问题”这件事讲明白了。
在今天看,CogVideo 还没有后来 diffusion 系统那样强的视觉质量和工业成熟度,但它早早指出:
- 预训练迁移是必要的
- 视频模型会越来越大
- 数据与训练策略本身就是核心技术
这个判断后来被一再验证。
#五、经典工作 3:Make-A-Video(2022)
论文: Make-A-Video: Text-to-Video Generation without Text-Video Data
链接: https://arxiv.org/abs/2209.14792
#它之前的问题是什么
这几乎是 2022 年最现实的痛点:
- 文本-图像数据很多
- 无标注视频很多
- 但高质量文本-视频配对数据不够
那能不能:
- 用文本-图像学“长什么样”
- 用视频学“怎么动”
- 最后拼出 text-to-video?
#它的回答
Make-A-Video 的核心就是:可以。
它把图像生成模型作为基座,再补进时空模块,分别从图像对齐和视频运动里学习,绕开了对大规模文本-视频配对数据的强依赖。
#它到底解决了什么
它解决的是:
text-to-video 对高质量 paired text-video 的依赖能不能被削弱?
这件事非常关键,因为它改变了整个行业对数据瓶颈的看法:
- 视频生成不一定非得完全靠文本-视频 paired data 起步
- 图像模型的先验极其宝贵
- 时空模块可以作为增量能力接进来
#它的历史位置
这篇工作很像“从图像到视频迁移路线”的代表作。它不仅是学术结果,更是工业思路:
- 先把图像做好
- 再把时间维接上
- 尽量重用已有基座
这条路线后来在大量模型里都能看到影子。
#六、2022 年另一条线:Imagen Video 与级联系统
论文: Imagen Video: High Definition Video Generation with Diffusion Models
链接: https://arxiv.org/abs/2210.02303
#它之前的问题是什么
前面的模型虽然证明了能生成视频,但普遍存在:
- 分辨率不够高
- 采样成本大
- 长视频和高分辨率一起做很困难
#Imagen Video 的关键判断
它延续了图像扩散中的 cascade 思路,明确告诉大家:
高质量视频生成不能指望一个模型一步到位,必须分阶段:先出粗视频,再做时空超分。
#它在解决什么
它解决的核心问题是:
- 如何把视频质量从“研究 demo”推向“更接近可用内容”
- 如何在不直接建模完整高维视频分布的情况下得到高分辨率结果
#它对后来的影响
后续很多视频大模型的系统结构都带着它的影子:
- base model 负责粗时空结构
- super-resolution / interpolation / refinement 模块负责清晰度和帧率
- 系统工程开始变得和模型本体一样重要
到这里,视频生成领域第一次形成了比较完整的工业路线图。
#七、2023:从“能生成”转向“更便宜、更稳、更可控”
到了 2023 年,领域重点明显变了。
2022 年大家还在证明“这事能不能成”,2023 年则在追问:
- 能不能更便宜?
- 能不能更快利用已有图像模型?
- 能不能做编辑、控制、一致性增强?
这时出现了一批非常有代表性的工作。
#八、经典工作 4:Text2Video-Zero(2023)
论文: Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
链接: https://arxiv.org/abs/2303.13439
#它之前的问题是什么
前面的方法几乎都要专门训练 video model,这很贵。
问题来了:
如果我只有一个强大的 text-to-image diffusion 模型,能不能几乎不训练,直接把它变成视频生成器?
#它的核心思路
Text2Video-Zero 的思路相当漂亮:
- 给 latent 注入运动动态
- 用 cross-frame attention 让各帧围绕首帧保持上下文和主体一致性
- 基本不做额外大规模视频训练
#它要解决什么
它解决的是资源门槛问题:
- 小团队有没有机会做视频生成
- 已有图像模型能不能被最大化复用
- 视频生成能不能从“训练大模型”转成“重编程大模型”
#它为什么重要
因为它证明了一件很刺激的事:
视频能力不一定全靠重新训练,也可以靠对图像模型结构与注意力机制的巧妙改造。
虽然这条路线不是后来最强 industrial path,但它极大推动了低成本视频生成、视频编辑和开源复现生态。
#九、2023 另一条重要主线:从短视频生成走向更真实、更大规模
论文: Photorealistic Video Generation with Diffusion Models(W.A.L.T)
链接: https://arxiv.org/abs/2312.06662
#它之前的问题是什么
扩散视频模型有三个长期矛盾:
- 高保真 vs 训练稳定性
- 大规模建模 vs 内存成本
- 图像能力 vs 视频能力常常分开学,迁移不顺
#它的关键贡献
W.A.L.T 这篇工作很有代表性,因为它把一些后面会越来越主流的设计明确化了:
- 统一图像与视频的 latent space
- 用causal encoder 同时压缩图像和视频
- 用window attention 处理空间与时空建模中的效率问题
- 最终形成级联 text-to-video 系统
#它在试图解决什么
核心是:
视频生成不能总是作为图像生成的附属实验,它需要面向真实大规模训练的独立系统设计。
这就意味着研究重点从“证明可能性”进一步转向:
- 统一表示
- 高效 attention
- 更系统的架构设计
- 更逼真的视觉结果
这其实已经非常接近 2024 之后的大模型思路了。
#十、2024:Sora 震动行业,视频生成的叙事变了
2024 年真正改变行业叙事的,是 Sora。
严格说,Sora 对外公开的信息不像典型论文那样完整,很多讨论依赖技术解读、二手分析和系统推断。但它的重要性不在于某一个公开公式,而在于它改变了大家对视频生成终局的理解。
#Sora 之前的主流叙事
- 视频生成是图像生成的延伸任务
- 重点是清晰度、时长、时序一致性
- 主要应用是内容生成
#Sora 之后的主流叙事
- 视频生成是世界建模的表现形式
- 模型需要理解:
- 三维空间
- 物体持续性
- 多主体交互
- 相机运动
- 物理直觉
- 长时序事件展开
- 目标不只是生成片段,而是“模拟一个能持续运转的世界”
#Sora 到底解决了什么问题
Sora 不是第一次让视频变清晰,也不是第一次让 prompt 生视频。
它真正让行业重新排序的问题是:
视频生成模型能不能展现出接近世界模拟器的统一能力?
也就是把下面这些过去分散的指标,合并成一个整体能力:
- 镜头语言
- 空间连贯
- 动作自然
- 多事件协同
- 长镜头稳定性
- 高级语义理解
Sora 的意义,相当于把视频生成从“单任务生成”抬到了“基础模型 / 世界模型”的层级。
#十一、2024-2025:Open-Sora、HunyuanVideo、Wan —— 开源生态开始追赶闭源前沿
Sora 点燃预期后,接下来真正重要的问题变成了:
开源社区能不能追上?
这时出现了几条很关键的工作线。
#十二、经典工作 5:HunyuanVideo(2024/2025)
论文: HunyuanVideo: A Systematic Framework For Large Video Generative Models
链接: https://arxiv.org/abs/2412.03603
#它之前的问题是什么
Sora 之后,行业都知道视频大模型要做大、做强、做系统,但开源阵营仍然缺:
- 足够大的基础模型
- 体系化的数据清洗与训练方案
- 真正工程化的训练/推理基础设施
- 能和闭源产品正面对比的完整技术报告
#HunyuanVideo 的核心价值
这篇工作最重要的不是某个单点 trick,而是“系统性”。
从 abstract 就能看出,它明确把视频生成看成一套综合工程:
- 数据构建
- 架构设计
- 渐进式 scaling 与训练
- 大规模训练和推理基础设施
- 文本对齐、动态质量、镜头语言等指标的统一优化
#它想解决什么
它想解决的是:
开源视频模型如何从 demo 级别,跨到真正的大模型基础设施级别。
#为什么它重要
因为这代表开源视频生成从“复现某个点子”升级到“建设完整工业技术栈”。
它的历史地位很像:
- 对图像生成来说,大家从小模型 demo 走向 Stable Diffusion / SDXL 生态
- 对视频生成来说,HunyuanVideo 是类似的“生态拐点工作”之一
#十三、经典工作 6:Wan(2025)
论文: Wan: Open and Advanced Large-Scale Video Generative Models
链接: https://arxiv.org/abs/2503.20314
#它之前的问题是什么
到 2025 年,开源视频模型不再只比“能不能生成”,而开始比:
- 能不能覆盖更多下游任务
- 能不能做 image-to-video、editing、personalization
- 能不能在消费级显卡上也有可用版本
- 能不能形成真正完整的产品级模型家族
#Wan 的关键回答
Wan 很明确地把自己定位成一套开放的视频 foundation model family。
abstract 里有几个很有代表性的关键词:
- 新的视频 VAE
- scalable pre-training strategies
- 大规模数据构建
- automated evaluation metrics
- 1.3B / 14B 双尺度模型
- 覆盖多种 downstream tasks
- 消费级 GPU 可运行版本
#它具体在补哪块短板
Wan 在补的是“开源视频模型的完整产品形态”:
- 不是只卷最大模型,也卷小模型可用性
- 不是只做单一 T2V,也做 I2V / editing / personalized generation
- 不是只报若干样例,而是更强调一整套 suite
#它的历史意义
Wan 代表着视频生成进入一个更成熟阶段:
大家开始把视频模型看成平台,而不是单一论文结果。
这是很重要的变化。
因为当一个领域从“单点 SOTA”变成“模型家族 + 任务覆盖 + 推理成本分层”,说明它已经开始走向真正的基础设施化。
#十四、2025 的另一条变化:竞争焦点从纯 T2V 扩展到统一多任务与可控生成
到了 2025 年,纯文本生视频已经不再是唯一指标。
行业开始更关心:
- 参考图 / 参考视频条件下的一致性生成
- 视频编辑
- 多镜头控制
- 主体一致性
- 音频对齐
- 多模态输入统一接口
这背后的逻辑很清楚:
用户真正需要的不是“随机生成一段视频”,而是“在约束条件下稳定生成可用内容”。
所以 2025 年之后的进步,越来越多发生在:
- conditioning 设计
- reference-based generation
- 编辑与重定向
- 更统一的训练分布
- 更复杂的评测维度
也就是说,领域从“会生成”走向“可生产”。
#十五、2026:最新竞争焦点是什么
到今天(2026-04-25),视频生成最新一轮竞争,已经进一步升级。
现在领先工作在拼的,不只是单个视频片段的漂亮程度,而是下面这些能力是否能一起成立:
- 多模态统一输入:text / image / audio / video 一起支持
- 原生音视频联合生成:不是先出视频后配音,而是联合建模
- 复杂世界生成:多主体、多事件、多风格、多镜头切换
- 强编辑与参考能力:多图、多段视频、多段音频作为条件
- 速度分层:既要高质量版本,也要低延迟 fast 版本
这时,“世界复杂性”开始成为一个非常准确的关键词。
#十六、经典工作 7:Seedance 2.0(2026)
论文: Seedance 2.0: Advancing Video Generation for World Complexity
链接: https://arxiv.org/abs/2604.14148
#它之前的问题是什么
前一阶段模型虽然已经很强,但通常还存在下面几个割裂:
- 文本、图像、视频、音频输入往往分不同模型或不同 pipeline
- 音频常常不是原生联合生成,而是外挂模块
- 复杂条件参考能力不足
- 生成“单个好片段”可以,但面对复杂世界、多约束、多模态编辑时容易崩
#Seedance 2.0 的核心主张
这篇工作从标题就把野心写出来了:
不是只提升视频质量,而是推进对世界复杂性的生成能力。
从 abstract 看,它强调:
- 原生多模态音视频联合生成
- 统一高效的大规模架构
- 同时支持 text / image / audio / video 四种输入
- 很强的多模态参考与编辑能力
- 4 到 15 秒的原生音视频输出
- 480p / 720p 原生分辨率
- fast 版本支持低时延场景
#它在解决什么
Seedance 2.0 想解决的核心问题是:
视频生成模型如何从“prompt-driven generator”升级成“多模态内容引擎”。
也就是说,真正难的已经不是一句话生视频,而是:
- 给几张图、几段音频、几段视频,能不能稳定地合成
- 音视频能不能从根上同步
- 多主体复杂场景能不能不乱
- 编辑能力能不能成为模型内生能力,而不是外挂 patchwork
#为什么它代表 2026 的趋势
因为这篇工作清楚说明了:
- 视频生成已经不再孤立
- 它正被重构成多模态生成系统
- 评价标准开始更像“复杂内容生产能力”,而不是单一视觉打分
这是 2026 非常鲜明的方向。
#十七、这条发展逻辑里,还有哪些关键暗线
上面按论文串了一条主线,但真正理解这个领域,还要看到几条“暗线”。
#暗线 1:从像素空间到 latent space
这是视频生成能扩大的前提。
如果一直在原始像素空间直接建模,时空成本太高。进入 latent space 之后,模型才有机会:
- 上大模型
- 上更长视频
- 上更复杂 conditioning
- 做 cascade / refinement
所以 latent video VAE / tokenizer / representation learning,是底层基础设施,而不是配角。
#暗线 2:从 U-Net 到 Transformer / DiT 化
早期视频扩散大量沿用 U-Net 直觉,但随着规模增长,Transformer / DiT 路线越来越强。
原因很简单:
- 更适合大规模扩展
- 更适合统一图像 / 视频 / 多模态 token 建模
- 更方便接入 foundation model 训练范式
2024-2026 的许多强模型,本质上都在往“video foundation model”靠,这自然推动了 Transformer 化。
#暗线 3:从单任务到 unified model
过去常见的是:
- T2V 一个模型
- I2V 一个模型
- 编辑一个模型
- 音频一个模型
而现在越来越多系统在追求统一:
- 同一个骨干支持多输入模态
- 同一个模型覆盖生成、编辑、参考、重定向
- 同一套 latent / tokenizer / conditioning 接口服务多个任务
这是 foundation model 化的典型信号。
#暗线 4:从“视觉质量”到“世界复杂性”
这是最关键的一条。
早期评估关心:
- 清晰不清晰
- 漂不漂
- prompt 对不对
现在越来越关心:
- 复杂交互是否成立
- 空间关系是否稳定
- 主体 identity 是否持续
- 多镜头叙事是否自然
- 音视频因果是否对齐
- 长时序事件是否自洽
这说明视频生成正在靠近 world model,而不仅是视觉合成器。
#十八、如果把经典工作串成一条“问题接力链”
这是最值得记住的部分。
#1. Video Diffusion Models
要解决:扩散能不能成为视频生成主干?视频能不能被分层扩展?
#2. CogVideo
要解决:视频大模型能不能继承图像预训练,而不是从零开始?
#3. Make-A-Video
要解决:没有大规模 text-video paired data,能不能也做强 T2V?
#4. Imagen Video
要解决:如何把视频做高清、做级联、做系统化高质量生成?
#5. Text2Video-Zero
要解决:能不能不重训大视频模型,而是低成本重编程图像 diffusion?
#6. W.A.L.T
要解决:图像与视频能不能统一 latent 表示,并在效率与真实感上进一步推进?
#7. Sora(作为行业拐点)
要解决:视频生成能不能表现出世界模型级别的空间、动作、镜头和事件理解?
#8. HunyuanVideo
要解决:开源视频模型如何形成完整的大模型系统栈,与闭源前沿正面对抗?
#9. Wan
要解决:开源视频模型如何从单点能力,升级为覆盖多任务、多尺寸、可部署的平台化模型家族?
#10. Seedance 2.0
要解决:视频生成如何升级为原生多模态音视频联合生成系统,并应对复杂世界生成与编辑?
这条链看完,发展逻辑就很清楚了:
从“视频能不能生成”,到“视频怎么生成得更好”,再到“视频模型是否能成为多模态世界内容引擎”。
#十九、今天这个方向最核心的未解问题是什么
虽然 2026 已经很强,但真正的难题还远没结束。
#1. 长时序一致性仍然脆弱
短视频明显进步很大,但真正长剧情、多事件推进、细节持续一致,仍然很难。
#2. 复杂物理与因果仍然不稳定
模型常常能“看起来像懂”,但在真正复杂交互、接触关系、物体约束上仍会露馅。
#3. 可控性和自由度始终在 trade-off
条件越多,模型越容易被束缚;自由度越高,又越容易跑偏。
#4. 评测严重落后于模型能力
FID、FVD 之类指标很难完整覆盖:
- 叙事合理性
- 复杂交互
- 空间稳定性
- 镜头语言
- 音视频同步
#5. 世界模型叙事还没有真正闭环
“像 world model”不等于“真 world model”。
真正的世界模型还需要更强的:
- 可交互性
- 可持续模拟
- 明确的状态演化
- 规划与反事实能力
目前很多视频模型更像“世界感很强的生成器”,还不是真正能稳定支持 agent 交互和持续推演的模拟器。
#二十、我对 2026 这个时间点的判断
如果你问我:到 2026 今天,视频生成最本质的变化是什么?
我的判断是:
视频生成已经从一个视觉生成子任务,变成了多模态基础模型竞争的核心战场之一。
今天比的早已不是单个 demo,而是:
- 数据体系
- tokenizer / VAE / latent 表示
- DiT / Transformer 主干
- 训练稳定性与 scaling
- 多任务统一
- 多模态联合生成
- 世界复杂性理解
- 产品化速度与成本分层
换句话说,视频生成已经进入“基础设施战争”阶段。
而这也意味着,后面的突破未必只来自更大的模型,还可能来自:
- 更好的世界表示
- 更长时序训练机制
- 更结构化的物理与 3D 归纳偏置
- 更统一的音视频动作状态空间
- 从被动生成走向可交互世界模拟
#二十一、最后用一句话概括整个发展脉络
如果非要把这篇长文压成一句话,那就是:
视频生成的发展逻辑,本质上是在不断把图像生成的“会画”,升级成时间维上的“会演”,再升级成多模态条件下的“会构造一个持续成立的世界”。
而 2026 的最新前沿,已经不满足于 text-to-video 本身,开始竞争:
- 谁更像多模态内容引擎
- 谁更能处理复杂世界
- 谁更接近真正的 world model
这才是理解整个领域最重要的主线。
#参考论文与里程碑
- Video Diffusion Models (2022)
https://arxiv.org/abs/2204.03458
- CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers (2022)
https://arxiv.org/abs/2205.15868
- Make-A-Video: Text-to-Video Generation without Text-Video Data (2022)
https://arxiv.org/abs/2209.14792
- Imagen Video: High Definition Video Generation with Diffusion Models (2022)
https://arxiv.org/abs/2210.02303
- Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators (2023)
https://arxiv.org/abs/2303.13439
- Photorealistic Video Generation with Diffusion Models / W.A.L.T (2023)
https://arxiv.org/abs/2312.06662
- Sora as a World Model? A Complete Survey on Text-to-Video Generation (survey, updated 2026)
https://arxiv.org/abs/2403.05131
- HunyuanVideo: A Systematic Framework For Large Video Generative Models (2024/2025)
https://arxiv.org/abs/2412.03603
- Wan: Open and Advanced Large-Scale Video Generative Models (2025)
https://arxiv.org/abs/2503.20314
- Seedance 2.0: Advancing Video Generation for World Complexity (2026)