StreamingT2V（CVPR 2025）：一致、动态、可扩展的长视频文本生成

会议：CVPR 2025

发表日期：2025-06-11

资料加入日期："2026-04-12"

一句话结论

这篇工作认为，长视频生成首先是一个记忆管理问题；如果没有同时处理短期与长期记忆，就很容易出现硬切、身份漂移和运动崩坏。

问题定义

它要解决的是当前 text-to-video 方法一旦试图延长视频，就会出现不连续、场景断裂和运动失真。

方法概述

方法上，StreamingT2V 采用分块自回归生成，并加入条件注意力记忆块、长期外观保持模块和随机融合机制，以支持更长范围上的平滑延展。

关键发现

长视频一致性被明确重新表述为记忆问题。
方法同时追求场景身份保持和长时程运动连续性。
它的目标是让视频能无缝延展，而不是只在短片段里好看。

局限或疑问

分块自回归仍可能在长时程中累积误差。
需要和 LinGen 等其他长视频方案在质量与成本上直接比较。
过强记忆约束可能压缩内容多样性。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Henschel_StreamingT2V_Consistent_Dynamic_and_Extendable_Long_Video_Generation_from_Text_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Henschel_StreamingT2V_Consistent_Dynamic_and_Extendable_Long_Video_Generation_from_Text_CVPR_2025_paper.pdf

备注

StreamingT2V 很适合作为“长视频一致性”路线的代表，因为它把生成问题拆成了记忆与延展问题。对后续视频生成知识组织来说，它和 LinGen 形成了很清楚的互补：一个偏记忆机制，一个偏复杂度重构。

Metadata

{ "id": "2026-04-12-streamingt2v", "type": "source", "title": "StreamingT2V（CVPR 2025）：一致、动态、可扩展的长视频文本生成", "status": "reviewed", "created": "2026-04-12", "updated": "2026-04-15", "venue": "CVPR 2025", "ingested_at": "2026-04-12", "tags": [ "near-cvpr-2025", "video-generation", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Roberto Henschel", "Levon Khachatryan", "Hayk Poghosyan", "Daniil Hayrapetyan", "Vahram Tadevosyan", "Zhangyang Wang", "Shant Navasardyan", "Humphrey Shi" ], "published_at": "2025-06-11", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2025/html/Henschel_StreamingT2V_Consistent_Dynamic_and_Extendable_Long_Video_Generation_from_Text_CVPR_2025_paper.html", "https://openaccess.thecvf.com/content/CVPR2025/papers/Henschel_StreamingT2V_Consistent_Dynamic_and_Extendable_Long_Video_Generation_from_Text_CVPR_2025_paper.pdf" ], "raw_entry": "raw/ingest/2026-04-12-streamingt2v/", "topics": [ "topics/video-generation", "topics/diffusion-models" ], "entities": [], "claims": [], "questions": [] }