Encapsulated Composition(CVPR 2025):组合式文本到图像/视频模型高质量视频合成
会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:2026-04-14
深分析稿:raw/ingest/2026-04-14-encapsulated-composition-t2i-t2v/analysis
一句话结论
这篇论文证明了模块组合系统并不天然弱于统一大模型:通过封装式组合 T2I 的图像先验与 T2V 的时序先验,并用 selective feature injection 精细控制信息流,可以同时提升视频质量、运动平滑度和推理效率。
论文定位
它是“modular composition”路线里的代表作。与追求统一大模型不同,这篇论文把重点放在推理阶段的系统封装与信息注入设计上。
问题定义
作者面对的是 T2V 的长期矛盾:
- 画质高时,时序往往不稳
- 时序自然时,单帧细节又容易不足
简单逐帧调用 T2I 会闪烁,纯 T2V 又常常失去图像质量。
方法概述
论文主线有三层:
- encapsulated composition of T2I and T2V
在推理层面组合两个预训练系统,而不是重新训练统一模型。
- T2I/T2V denoising composition
研究不同去噪组合方式,说明简单串联不能得到理想结果。
- Selective Feature Injection(SFI)
只提取 T2V 中对时序有价值的特征,而不把其较弱外观带入 T2I,从而同时保住画质与一致性。
关键发现
- 模块组合系统可以同时提升画质和运动平滑度。
- SFI 是平衡 image prior 与 temporal prior 的关键机制。
- 组合路线在推理速度上也有优势,说明它不只是质量策略,也是工程策略。
- 这篇论文为统一模型路线提供了非常强的反向证据。
关键图示
组合式去噪框架
!900
这一页解释 T2I/T2V 去噪流程如何被封装组合,以及为什么简单串联不能得到理想结果,是理解论文的主图。
Selective Feature Injection 机制
!900
这一页最适合解释 SFI:如何提取 T2V 的 temporal prior,同时避免低质量外观污染 T2I 结果。
主结果页
!900
这一页集中展示与多个 baseline 的定性和定量比较,是说明 modular composition 路线竞争力的关键证据页。
核心实验与结果
- 论文显示组合式系统可以显著提升视频视觉质量和运动一致性。
- 主结果页说明它不是只在单一场景有效,而是在多个 baseline 对照下都具有优势。
- 速度相关分析进一步说明模块封装并不必然带来更重的推理成本。
- 这篇论文把“统一模型 vs 模块组合系统”的问题从抽象讨论拉回了实证层面。
局限或疑问
- 主要在视频合成侧成立,不能直接外推到图像生成/编辑的全局结论。
- 训练免费组合的长期上限是否高于深度统一训练框架,仍需更多长期比较。
- 目前更偏系统设计优势,跨任务统一对照仍然有限。
对当前 wiki 判断的影响
- 它显著补强了 questions/question-will-unified-image-models-sustain-their-advantage:模块组合系统也是非常强的竞争者。
- 它让
topics/video-generation不再只围绕统一模型或单主干改造,而是增加了一条系统封装路线。 - 这篇论文提醒我们,工程上更强的系统未必来自更大的单体模型,也可能来自更聪明的模型组合方式。
相关页面
- topics/video-generation
- topics/image-generation
- topics/diffusion-models
- entities/diffusion-transformer
- questions/question-will-unified-image-models-sustain-their-advantage
原始链接
- https://openaccess.thecvf.com/content/CVPR2025/html/Su_Encapsulated_Composition_of_Text-to-Image_and_Text-to-Video_Models_for_High-Quality_Video_CVPR_2025_paper.html
- https://openaccess.thecvf.com/content/CVPR2025/papers/Su_Encapsulated_Composition_of_Text-to-Image_and_Text-to-Video_Models_for_High-Quality_Video_CVPR_2025_paper.pdf
- http://arxiv.org/abs/2507.13753