LinGen(CVPR 2025):面向高分辨率分钟级文本到视频生成的线性复杂度框架
会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:"2026-04-12"
一句话结论
这篇工作认为,分钟级高分辨率视频生成之所以难,首先是一个计算复杂度问题;只要把核心模块从二次复杂度 attention 改成线性复杂度结构,长视频生成就能真正向实用迈进。
问题定义
它要解决的是视频生成随着像素数和时长增长而迅速爆炸的算力成本,使得多数系统只能停留在 10 到 20 秒级短视频。
方法概述
方法上,它用线性复杂度的 MATE 模块替换标准自注意力,将 Mamba 风格的长程建模和时间建模结合起来,让生成成本随像素数量线性增长。
关键发现
- 长视频生成被明确看作系统级效率问题,而不仅是模型规模问题。
- 论文报告了显著的 FLOPs 与延迟下降,同时保持有竞争力的质量。
- 它把文本到视频推进到分钟级长度,并宣称单 GPU 也能实现。
局限或疑问
- 长视频质量是否稳定,还需要比指标更细致的人工检查。
- 线性复杂度替代结构可能仍然牺牲部分表达能力。
- 后续应和 vault 中其他长视频生成方法直接比较。
原始链接
- https://openaccess.thecvf.com/content/CVPR2025/html/Wang_LinGen_Towards_High-Resolution_Minute-Length_Text-to-Video_Generation_with_Linear_Computational_Complexity_CVPR_2025_paper.html
- https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_LinGen_Towards_High-Resolution_Minute-Length_Text-to-Video_Generation_with_Linear_Computational_Complexity_CVPR_2025_paper.pdf
相关页面
- topics/video-generation
- topics/diffusion-models
- topics/image-generation
- topics/generative-model-evaluation
备注
LinGen 非常适合作为 video-generation 路线中的“算力可扩展性主线”代表。它说明长视频不是只靠更大模型就能解决,而是必须在核心结构上重做复杂度设计。