2 天前

Waver:以波形之姿实现逼真视频生成

Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng
Waver:以波形之姿实现逼真视频生成
摘要

我们提出 Waver,一个高性能的统一图像与视频生成基础模型。Waver 能够直接生成时长为 5 至 10 秒、原生分辨率为 720p 的视频,并随后将其上采样至 1080p。该模型在一个统一的集成框架中,同时支持文本到视频(T2V)、图像到视频(I2V)以及文本到图像(T2I)的生成任务。为提升模态对齐效果并加速训练收敛,我们设计了混合流 DiT(Hybrid Stream DiT)架构。为保障训练数据质量,我们构建了一套完整的数据筛选流程,并人工标注数据,训练了一个基于多模态大语言模型(MLLM)的视频质量评估模型,用于筛选出最高质量的样本。此外,我们还提供了详细的训练与推理方案,以帮助生成高质量视频。基于上述贡献,Waver 在捕捉复杂运动方面表现出色,显著提升了视频生成中的运动幅度与时间一致性。尤为突出的是,截至 2025 年 7 月 30 日 10:00(GMT+8),Waver 在 Artificial Analysis 平台的 T2V 与 I2V 两个榜单中均位列前三,持续超越现有开源模型,达到甚至超越当前最先进的商业解决方案水平。我们希望本技术报告能帮助社区更高效地训练高质量视频生成模型,推动视频生成技术的进一步发展。官方页面:https://github.com/FoundationVision/Waver。

Waver:以波形之姿实现逼真视频生成 | 最新论文 | HyperAI超神经