#视频生成发展脉络全景梳理:从早期生成到 2026 世界复杂性竞争

#先给结论:视频生成到底是怎么一路发展过来的

如果把视频生成这几年的进展压缩成一句话,那就是:

这个领域一直在从“会动”走向“像真的世界在持续运转”。

它的主线不是单纯把图像生成搬到视频上,而是在不断解决四个越来越难的问题:

  1. 先生成像样的单帧内容 —— 解决“能不能看”
  2. 再让帧与帧之间连贯 —— 解决“会不会抖、会不会跳”
  3. 再把长度、分辨率、运动复杂度做上去 —— 解决“够不够用”
  4. 最后把视频当成世界建模问题 —— 解决“是否真的理解空间、物体、动作、因果和可控性”

所以整个演化逻辑非常清楚:

  • 早期方法主要在想:怎么生成一段视频而不是一张图
  • 中期方法在想:怎么把图像生成的能力迁移到视频
  • 扩散时代在想:怎么同时搞定质量、时序一致性和可扩展性
  • 2024 以后则明显转向:怎么把视频生成做成大模型、做成世界模型、做成多模态系统
  • 2026,竞争焦点已经不只是 text-to-video,而是:

- 多模态参考与编辑

- 音视频原生联合生成

- 长时序一致性

- 复杂世界中的多主体、多事件、多镜头生成

- 更像“内容引擎”甚至“世界模拟器”

下面按发展脉络展开。


#一、扩散大爆发之前:视频生成为什么一直难

在扩散模型真正接管主流之前,视频生成长期比图像生成难很多,原因并不神秘:

#1. 视频比图像多了一个“时间维”

图像生成只需要让一张图局部合理、全局像样。

视频生成还得保证:

  • 上一帧和下一帧不能断裂
  • 主体身份不能乱变
  • 相机运动要连续
  • 动作不能违背物理直觉
  • 长序列里不能越生成越崩

也就是说,视频不是“很多好图拼起来”,而是“一个连续演化过程”。

#2. 训练成本远高于图像

视频 token / pixel 量远大于图像,导致:

  • 显存和算力压力爆炸
  • 大规模高质量视频数据更难收集和清洗
  • 文本-视频对齐数据远少于文本-图像

#3. 时序一致性是结构性难题

早期很多方法的问题不是静态画面不够好,而是:

  • 人脸会漂
  • 背景会抖
  • 物体会忽隐忽现
  • 动作逻辑会断

这说明视频生成真正难的,不是“每帧都好看”,而是“同一个世界要在时间上持续成立”。

因此,早期 GAN / VAE / autoregressive 视频方法虽然开了路,但很难同时兼顾:

  • 清晰度
  • 运动自然性
  • 长度
  • 训练稳定性
  • 文本控制能力

真正改变局面的,是图像扩散模型成熟之后,视频开始吃到图像生成基础设施的红利。


#二、关键转折:2022 年为什么是现代视频生成元年

2022 年是决定性的一年。不是因为之前没有视频生成,而是因为这年开始,领域终于形成了一条可扩展主线:

把图像生成的强 prior、强文本对齐和强视觉质量,系统性迁移到视频。

这个阶段有三篇必须讲的经典工作。


#三、经典工作 1:Video Diffusion Models(2022)

论文: Video Diffusion Models

链接: https://arxiv.org/abs/2204.03458

#它之前的问题是什么

在这篇工作之前,视频生成方法普遍面临两个硬伤:

  1. 质量不稳定,生成结果容易糊、抖、碎
  2. 即便能做短视频,也很难自然扩展到更长、更高分辨率

大家已经知道扩散模型在图像上非常强,但视频上怎么用,仍然不清楚。

#它的核心贡献是什么

这篇工作做了几件很关键的事:

  • 把标准图像扩散架构自然扩展到视频
  • 证明图像数据 + 视频数据联合训练是有帮助的
  • 提出空间/时间扩展式采样,让视频可以向更长、更高分辨率扩展

#它到底解决了什么

它解决的不是“文本视频生成已经完成”——那还早。

它真正解决的是一个更基础的问题:

扩散模型可以成为视频生成的主干范式,而且不仅能生成,还能做 scalable 的视频生成。

#它对后续的影响

后续几乎所有现代视频生成系统,都继承了这篇工作的世界观:

  • 视频生成也应该用 diffusion
  • 图像知识应该迁移到视频
  • 视频生成需要分层 / 级联 / 扩展式建模,而不是一次性硬生成全部高维时空体

可以说,这篇是视频 diffusion 时代的开篇。


#四、经典工作 2:CogVideo(2022)

论文: CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

链接: https://arxiv.org/abs/2205.15868

#它之前的问题是什么

即使知道视频生成要做大规模建模,仍然有两个现实问题:

  1. 从零训练 text-to-video 太贵
  2. 高质量文本-视频数据太少,文本和运动的对齐很差

#它的关键思路

CogVideo 的判断非常重要:

不要从零学视频,先继承已经训练好的文本到图像能力。

它从 CogView2 这样的 text-to-image 基座出发,再往视频扩展,并引入多帧率层级训练策略,处理不同时间尺度的运动建模。

#它要解决的根问题

它主要在解决:

  • 怎么降低视频大模型训练成本
  • 怎么利用图像生成里已经学到的语义和视觉知识
  • 怎么让文本驱动的视频模型真正吃到预训练红利

#它为什么经典

因为它把“视频生成是大模型问题”这件事讲明白了。

在今天看,CogVideo 还没有后来 diffusion 系统那样强的视觉质量和工业成熟度,但它早早指出:

  • 预训练迁移是必要的
  • 视频模型会越来越大
  • 数据与训练策略本身就是核心技术

这个判断后来被一再验证。


#五、经典工作 3:Make-A-Video(2022)

论文: Make-A-Video: Text-to-Video Generation without Text-Video Data

链接: https://arxiv.org/abs/2209.14792

#它之前的问题是什么

这几乎是 2022 年最现实的痛点:

  • 文本-图像数据很多
  • 无标注视频很多
  • 但高质量文本-视频配对数据不够

那能不能:

  • 用文本-图像学“长什么样”
  • 用视频学“怎么动”
  • 最后拼出 text-to-video?

#它的回答

Make-A-Video 的核心就是:可以。

它把图像生成模型作为基座,再补进时空模块,分别从图像对齐和视频运动里学习,绕开了对大规模文本-视频配对数据的强依赖。

#它到底解决了什么

它解决的是:

text-to-video 对高质量 paired text-video 的依赖能不能被削弱?

这件事非常关键,因为它改变了整个行业对数据瓶颈的看法:

  • 视频生成不一定非得完全靠文本-视频 paired data 起步
  • 图像模型的先验极其宝贵
  • 时空模块可以作为增量能力接进来

#它的历史位置

这篇工作很像“从图像到视频迁移路线”的代表作。它不仅是学术结果,更是工业思路:

  • 先把图像做好
  • 再把时间维接上
  • 尽量重用已有基座

这条路线后来在大量模型里都能看到影子。


#六、2022 年另一条线:Imagen Video 与级联系统

论文: Imagen Video: High Definition Video Generation with Diffusion Models

链接: https://arxiv.org/abs/2210.02303

#它之前的问题是什么

前面的模型虽然证明了能生成视频,但普遍存在:

  • 分辨率不够高
  • 采样成本大
  • 长视频和高分辨率一起做很困难

#Imagen Video 的关键判断

它延续了图像扩散中的 cascade 思路,明确告诉大家:

高质量视频生成不能指望一个模型一步到位,必须分阶段:先出粗视频,再做时空超分。

#它在解决什么

它解决的核心问题是:

  • 如何把视频质量从“研究 demo”推向“更接近可用内容”
  • 如何在不直接建模完整高维视频分布的情况下得到高分辨率结果

#它对后来的影响

后续很多视频大模型的系统结构都带着它的影子:

  • base model 负责粗时空结构
  • super-resolution / interpolation / refinement 模块负责清晰度和帧率
  • 系统工程开始变得和模型本体一样重要

到这里,视频生成领域第一次形成了比较完整的工业路线图。


#七、2023:从“能生成”转向“更便宜、更稳、更可控”

到了 2023 年,领域重点明显变了。

2022 年大家还在证明“这事能不能成”,2023 年则在追问:

  • 能不能更便宜?
  • 能不能更快利用已有图像模型?
  • 能不能做编辑、控制、一致性增强?

这时出现了一批非常有代表性的工作。


#八、经典工作 4:Text2Video-Zero(2023)

论文: Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

链接: https://arxiv.org/abs/2303.13439

#它之前的问题是什么

前面的方法几乎都要专门训练 video model,这很贵。

问题来了:

如果我只有一个强大的 text-to-image diffusion 模型,能不能几乎不训练,直接把它变成视频生成器?

#它的核心思路

Text2Video-Zero 的思路相当漂亮:

  • 给 latent 注入运动动态
  • 用 cross-frame attention 让各帧围绕首帧保持上下文和主体一致性
  • 基本不做额外大规模视频训练

#它要解决什么

它解决的是资源门槛问题:

  • 小团队有没有机会做视频生成
  • 已有图像模型能不能被最大化复用
  • 视频生成能不能从“训练大模型”转成“重编程大模型”

#它为什么重要

因为它证明了一件很刺激的事:

视频能力不一定全靠重新训练,也可以靠对图像模型结构与注意力机制的巧妙改造。

虽然这条路线不是后来最强 industrial path,但它极大推动了低成本视频生成、视频编辑和开源复现生态。


#九、2023 另一条重要主线:从短视频生成走向更真实、更大规模

论文: Photorealistic Video Generation with Diffusion Models(W.A.L.T)

链接: https://arxiv.org/abs/2312.06662

#它之前的问题是什么

扩散视频模型有三个长期矛盾:

  1. 高保真 vs 训练稳定性
  2. 大规模建模 vs 内存成本
  3. 图像能力 vs 视频能力常常分开学,迁移不顺

#它的关键贡献

W.A.L.T 这篇工作很有代表性,因为它把一些后面会越来越主流的设计明确化了:

  • 统一图像与视频的 latent space
  • causal encoder 同时压缩图像和视频
  • window attention 处理空间与时空建模中的效率问题
  • 最终形成级联 text-to-video 系统

#它在试图解决什么

核心是:

视频生成不能总是作为图像生成的附属实验,它需要面向真实大规模训练的独立系统设计。

这就意味着研究重点从“证明可能性”进一步转向:

  • 统一表示
  • 高效 attention
  • 更系统的架构设计
  • 更逼真的视觉结果

这其实已经非常接近 2024 之后的大模型思路了。


#十、2024:Sora 震动行业,视频生成的叙事变了

2024 年真正改变行业叙事的,是 Sora。

严格说,Sora 对外公开的信息不像典型论文那样完整,很多讨论依赖技术解读、二手分析和系统推断。但它的重要性不在于某一个公开公式,而在于它改变了大家对视频生成终局的理解。

#Sora 之前的主流叙事

  • 视频生成是图像生成的延伸任务
  • 重点是清晰度、时长、时序一致性
  • 主要应用是内容生成

#Sora 之后的主流叙事

  • 视频生成是世界建模的表现形式
  • 模型需要理解:

- 三维空间

- 物体持续性

- 多主体交互

- 相机运动

- 物理直觉

- 长时序事件展开

  • 目标不只是生成片段,而是“模拟一个能持续运转的世界”

#Sora 到底解决了什么问题

Sora 不是第一次让视频变清晰,也不是第一次让 prompt 生视频。

它真正让行业重新排序的问题是:

视频生成模型能不能展现出接近世界模拟器的统一能力?

也就是把下面这些过去分散的指标,合并成一个整体能力:

  • 镜头语言
  • 空间连贯
  • 动作自然
  • 多事件协同
  • 长镜头稳定性
  • 高级语义理解

Sora 的意义,相当于把视频生成从“单任务生成”抬到了“基础模型 / 世界模型”的层级。


#十一、2024-2025:Open-Sora、HunyuanVideo、Wan —— 开源生态开始追赶闭源前沿

Sora 点燃预期后,接下来真正重要的问题变成了:

开源社区能不能追上?

这时出现了几条很关键的工作线。


#十二、经典工作 5:HunyuanVideo(2024/2025)

论文: HunyuanVideo: A Systematic Framework For Large Video Generative Models

链接: https://arxiv.org/abs/2412.03603

#它之前的问题是什么

Sora 之后,行业都知道视频大模型要做大、做强、做系统,但开源阵营仍然缺:

  • 足够大的基础模型
  • 体系化的数据清洗与训练方案
  • 真正工程化的训练/推理基础设施
  • 能和闭源产品正面对比的完整技术报告

#HunyuanVideo 的核心价值

这篇工作最重要的不是某个单点 trick,而是“系统性”。

从 abstract 就能看出,它明确把视频生成看成一套综合工程:

  • 数据构建
  • 架构设计
  • 渐进式 scaling 与训练
  • 大规模训练和推理基础设施
  • 文本对齐、动态质量、镜头语言等指标的统一优化

#它想解决什么

它想解决的是:

开源视频模型如何从 demo 级别,跨到真正的大模型基础设施级别。

#为什么它重要

因为这代表开源视频生成从“复现某个点子”升级到“建设完整工业技术栈”。

它的历史地位很像:

  • 对图像生成来说,大家从小模型 demo 走向 Stable Diffusion / SDXL 生态
  • 对视频生成来说,HunyuanVideo 是类似的“生态拐点工作”之一

#十三、经典工作 6:Wan(2025)

论文: Wan: Open and Advanced Large-Scale Video Generative Models

链接: https://arxiv.org/abs/2503.20314

#它之前的问题是什么

到 2025 年,开源视频模型不再只比“能不能生成”,而开始比:

  • 能不能覆盖更多下游任务
  • 能不能做 image-to-video、editing、personalization
  • 能不能在消费级显卡上也有可用版本
  • 能不能形成真正完整的产品级模型家族

#Wan 的关键回答

Wan 很明确地把自己定位成一套开放的视频 foundation model family

abstract 里有几个很有代表性的关键词:

  • 新的视频 VAE
  • scalable pre-training strategies
  • 大规模数据构建
  • automated evaluation metrics
  • 1.3B / 14B 双尺度模型
  • 覆盖多种 downstream tasks
  • 消费级 GPU 可运行版本

#它具体在补哪块短板

Wan 在补的是“开源视频模型的完整产品形态”:

  1. 不是只卷最大模型,也卷小模型可用性
  2. 不是只做单一 T2V,也做 I2V / editing / personalized generation
  3. 不是只报若干样例,而是更强调一整套 suite

#它的历史意义

Wan 代表着视频生成进入一个更成熟阶段:

大家开始把视频模型看成平台,而不是单一论文结果。

这是很重要的变化。

因为当一个领域从“单点 SOTA”变成“模型家族 + 任务覆盖 + 推理成本分层”,说明它已经开始走向真正的基础设施化。


#十四、2025 的另一条变化:竞争焦点从纯 T2V 扩展到统一多任务与可控生成

到了 2025 年,纯文本生视频已经不再是唯一指标。

行业开始更关心:

  • 参考图 / 参考视频条件下的一致性生成
  • 视频编辑
  • 多镜头控制
  • 主体一致性
  • 音频对齐
  • 多模态输入统一接口

这背后的逻辑很清楚:

用户真正需要的不是“随机生成一段视频”,而是“在约束条件下稳定生成可用内容”。

所以 2025 年之后的进步,越来越多发生在:

  • conditioning 设计
  • reference-based generation
  • 编辑与重定向
  • 更统一的训练分布
  • 更复杂的评测维度

也就是说,领域从“会生成”走向“可生产”。


#十五、2026:最新竞争焦点是什么

到今天(2026-04-25),视频生成最新一轮竞争,已经进一步升级。

现在领先工作在拼的,不只是单个视频片段的漂亮程度,而是下面这些能力是否能一起成立:

  1. 多模态统一输入:text / image / audio / video 一起支持
  2. 原生音视频联合生成:不是先出视频后配音,而是联合建模
  3. 复杂世界生成:多主体、多事件、多风格、多镜头切换
  4. 强编辑与参考能力:多图、多段视频、多段音频作为条件
  5. 速度分层:既要高质量版本,也要低延迟 fast 版本

这时,“世界复杂性”开始成为一个非常准确的关键词。


#十六、经典工作 7:Seedance 2.0(2026)

论文: Seedance 2.0: Advancing Video Generation for World Complexity

链接: https://arxiv.org/abs/2604.14148

#它之前的问题是什么

前一阶段模型虽然已经很强,但通常还存在下面几个割裂:

  • 文本、图像、视频、音频输入往往分不同模型或不同 pipeline
  • 音频常常不是原生联合生成,而是外挂模块
  • 复杂条件参考能力不足
  • 生成“单个好片段”可以,但面对复杂世界、多约束、多模态编辑时容易崩

#Seedance 2.0 的核心主张

这篇工作从标题就把野心写出来了:

不是只提升视频质量,而是推进对世界复杂性的生成能力。

从 abstract 看,它强调:

  • 原生多模态音视频联合生成
  • 统一高效的大规模架构
  • 同时支持 text / image / audio / video 四种输入
  • 很强的多模态参考与编辑能力
  • 4 到 15 秒的原生音视频输出
  • 480p / 720p 原生分辨率
  • fast 版本支持低时延场景

#它在解决什么

Seedance 2.0 想解决的核心问题是:

视频生成模型如何从“prompt-driven generator”升级成“多模态内容引擎”。

也就是说,真正难的已经不是一句话生视频,而是:

  • 给几张图、几段音频、几段视频,能不能稳定地合成
  • 音视频能不能从根上同步
  • 多主体复杂场景能不能不乱
  • 编辑能力能不能成为模型内生能力,而不是外挂 patchwork

#为什么它代表 2026 的趋势

因为这篇工作清楚说明了:

  • 视频生成已经不再孤立
  • 它正被重构成多模态生成系统
  • 评价标准开始更像“复杂内容生产能力”,而不是单一视觉打分

这是 2026 非常鲜明的方向。


#十七、这条发展逻辑里,还有哪些关键暗线

上面按论文串了一条主线,但真正理解这个领域,还要看到几条“暗线”。

#暗线 1:从像素空间到 latent space

这是视频生成能扩大的前提。

如果一直在原始像素空间直接建模,时空成本太高。进入 latent space 之后,模型才有机会:

  • 上大模型
  • 上更长视频
  • 上更复杂 conditioning
  • 做 cascade / refinement

所以 latent video VAE / tokenizer / representation learning,是底层基础设施,而不是配角。

#暗线 2:从 U-Net 到 Transformer / DiT 化

早期视频扩散大量沿用 U-Net 直觉,但随着规模增长,Transformer / DiT 路线越来越强。

原因很简单:

  • 更适合大规模扩展
  • 更适合统一图像 / 视频 / 多模态 token 建模
  • 更方便接入 foundation model 训练范式

2024-2026 的许多强模型,本质上都在往“video foundation model”靠,这自然推动了 Transformer 化。

#暗线 3:从单任务到 unified model

过去常见的是:

  • T2V 一个模型
  • I2V 一个模型
  • 编辑一个模型
  • 音频一个模型

而现在越来越多系统在追求统一:

  • 同一个骨干支持多输入模态
  • 同一个模型覆盖生成、编辑、参考、重定向
  • 同一套 latent / tokenizer / conditioning 接口服务多个任务

这是 foundation model 化的典型信号。

#暗线 4:从“视觉质量”到“世界复杂性”

这是最关键的一条。

早期评估关心:

  • 清晰不清晰
  • 漂不漂
  • prompt 对不对

现在越来越关心:

  • 复杂交互是否成立
  • 空间关系是否稳定
  • 主体 identity 是否持续
  • 多镜头叙事是否自然
  • 音视频因果是否对齐
  • 长时序事件是否自洽

这说明视频生成正在靠近 world model,而不仅是视觉合成器。


#十八、如果把经典工作串成一条“问题接力链”

这是最值得记住的部分。

#1. Video Diffusion Models

要解决:扩散能不能成为视频生成主干?视频能不能被分层扩展?

#2. CogVideo

要解决:视频大模型能不能继承图像预训练,而不是从零开始?

#3. Make-A-Video

要解决:没有大规模 text-video paired data,能不能也做强 T2V?

#4. Imagen Video

要解决:如何把视频做高清、做级联、做系统化高质量生成?

#5. Text2Video-Zero

要解决:能不能不重训大视频模型,而是低成本重编程图像 diffusion?

#6. W.A.L.T

要解决:图像与视频能不能统一 latent 表示,并在效率与真实感上进一步推进?

#7. Sora(作为行业拐点)

要解决:视频生成能不能表现出世界模型级别的空间、动作、镜头和事件理解?

#8. HunyuanVideo

要解决:开源视频模型如何形成完整的大模型系统栈,与闭源前沿正面对抗?

#9. Wan

要解决:开源视频模型如何从单点能力,升级为覆盖多任务、多尺寸、可部署的平台化模型家族?

#10. Seedance 2.0

要解决:视频生成如何升级为原生多模态音视频联合生成系统,并应对复杂世界生成与编辑?

这条链看完,发展逻辑就很清楚了:

从“视频能不能生成”,到“视频怎么生成得更好”,再到“视频模型是否能成为多模态世界内容引擎”。


#十九、今天这个方向最核心的未解问题是什么

虽然 2026 已经很强,但真正的难题还远没结束。

#1. 长时序一致性仍然脆弱

短视频明显进步很大,但真正长剧情、多事件推进、细节持续一致,仍然很难。

#2. 复杂物理与因果仍然不稳定

模型常常能“看起来像懂”,但在真正复杂交互、接触关系、物体约束上仍会露馅。

#3. 可控性和自由度始终在 trade-off

条件越多,模型越容易被束缚;自由度越高,又越容易跑偏。

#4. 评测严重落后于模型能力

FID、FVD 之类指标很难完整覆盖:

  • 叙事合理性
  • 复杂交互
  • 空间稳定性
  • 镜头语言
  • 音视频同步

#5. 世界模型叙事还没有真正闭环

“像 world model”不等于“真 world model”。

真正的世界模型还需要更强的:

  • 可交互性
  • 可持续模拟
  • 明确的状态演化
  • 规划与反事实能力

目前很多视频模型更像“世界感很强的生成器”,还不是真正能稳定支持 agent 交互和持续推演的模拟器。


#二十、我对 2026 这个时间点的判断

如果你问我:到 2026 今天,视频生成最本质的变化是什么?

我的判断是:

视频生成已经从一个视觉生成子任务,变成了多模态基础模型竞争的核心战场之一。

今天比的早已不是单个 demo,而是:

  • 数据体系
  • tokenizer / VAE / latent 表示
  • DiT / Transformer 主干
  • 训练稳定性与 scaling
  • 多任务统一
  • 多模态联合生成
  • 世界复杂性理解
  • 产品化速度与成本分层

换句话说,视频生成已经进入“基础设施战争”阶段。

而这也意味着,后面的突破未必只来自更大的模型,还可能来自:

  • 更好的世界表示
  • 更长时序训练机制
  • 更结构化的物理与 3D 归纳偏置
  • 更统一的音视频动作状态空间
  • 从被动生成走向可交互世界模拟

#二十一、最后用一句话概括整个发展脉络

如果非要把这篇长文压成一句话,那就是:

视频生成的发展逻辑,本质上是在不断把图像生成的“会画”,升级成时间维上的“会演”,再升级成多模态条件下的“会构造一个持续成立的世界”。

而 2026 的最新前沿,已经不满足于 text-to-video 本身,开始竞争:

  • 谁更像多模态内容引擎
  • 谁更能处理复杂世界
  • 谁更接近真正的 world model

这才是理解整个领域最重要的主线。


#参考论文与里程碑

  1. Video Diffusion Models (2022)

https://arxiv.org/abs/2204.03458

  1. CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers (2022)

https://arxiv.org/abs/2205.15868

  1. Make-A-Video: Text-to-Video Generation without Text-Video Data (2022)

https://arxiv.org/abs/2209.14792

  1. Imagen Video: High Definition Video Generation with Diffusion Models (2022)

https://arxiv.org/abs/2210.02303

  1. Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators (2023)

https://arxiv.org/abs/2303.13439

  1. Photorealistic Video Generation with Diffusion Models / W.A.L.T (2023)

https://arxiv.org/abs/2312.06662

  1. Sora as a World Model? A Complete Survey on Text-to-Video Generation (survey, updated 2026)

https://arxiv.org/abs/2403.05131

  1. HunyuanVideo: A Systematic Framework For Large Video Generative Models (2024/2025)

https://arxiv.org/abs/2412.03603

  1. Wan: Open and Advanced Large-Scale Video Generative Models (2025)

https://arxiv.org/abs/2503.20314

  1. Seedance 2.0: Advancing Video Generation for World Complexity (2026)

https://arxiv.org/abs/2604.14148