StreamingT2V(CVPR 2025):一致、动态、可扩展的长视频文本生成
会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:"2026-04-12"
一句话结论
这篇工作认为,长视频生成首先是一个记忆管理问题;如果没有同时处理短期与长期记忆,就很容易出现硬切、身份漂移和运动崩坏。
问题定义
它要解决的是当前 text-to-video 方法一旦试图延长视频,就会出现不连续、场景断裂和运动失真。
方法概述
方法上,StreamingT2V 采用分块自回归生成,并加入条件注意力记忆块、长期外观保持模块和随机融合机制,以支持更长范围上的平滑延展。
关键发现
- 长视频一致性被明确重新表述为记忆问题。
- 方法同时追求场景身份保持和长时程运动连续性。
- 它的目标是让视频能无缝延展,而不是只在短片段里好看。
局限或疑问
- 分块自回归仍可能在长时程中累积误差。
- 需要和 LinGen 等其他长视频方案在质量与成本上直接比较。
- 过强记忆约束可能压缩内容多样性。
原始链接
- https://openaccess.thecvf.com/content/CVPR2025/html/Henschel_StreamingT2V_Consistent_Dynamic_and_Extendable_Long_Video_Generation_from_Text_CVPR_2025_paper.html
- https://openaccess.thecvf.com/content/CVPR2025/papers/Henschel_StreamingT2V_Consistent_Dynamic_and_Extendable_Long_Video_Generation_from_Text_CVPR_2025_paper.pdf
相关页面
- topics/video-generation
- topics/diffusion-models
- topics/image-generation
- topics/generative-model-evaluation
备注
StreamingT2V 很适合作为“长视频一致性”路线的代表,因为它把生成问题拆成了记忆与延展问题。对后续视频生成知识组织来说,它和 LinGen 形成了很清楚的互补:一个偏记忆机制,一个偏复杂度重构。