Encapsulated Composition：组合式文本到图像/视频模型高质量视频合成

一句话结论

这篇论文证明了模块组合系统并不天然弱于统一大模型：通过封装式组合 T2I 的图像先验与 T2V 的时序先验，并用 selective feature injection 精细控制信息流，可以同时提升视频质量、运动平滑度和推理效率。

论文定位

它是“modular composition”路线里的代表作。与追求统一大模型不同，这篇论文把重点放在推理阶段的系统封装与信息注入设计上。

问题定义

作者面对的是 T2V 的长期矛盾：

画质高时，时序往往不稳
时序自然时，单帧细节又容易不足

简单逐帧调用 T2I 会闪烁，纯 T2V 又常常失去图像质量。

方法概述

论文主线有三层：

encapsulated composition of T2I and T2V

在推理层面组合两个预训练系统，而不是重新训练统一模型。

T2I/T2V denoising composition

研究不同去噪组合方式，说明简单串联不能得到理想结果。

Selective Feature Injection（SFI）

只提取 T2V 中对时序有价值的特征，而不把其较弱外观带入 T2I，从而同时保住画质与一致性。

关键发现

模块组合系统可以同时提升画质和运动平滑度。
SFI 是平衡 image prior 与 temporal prior 的关键机制。
组合路线在推理速度上也有优势，说明它不只是质量策略，也是工程策略。
这篇论文为统一模型路线提供了非常强的反向证据。

关键图示

组合式去噪框架

!900

这一页解释 T2I/T2V 去噪流程如何被封装组合，以及为什么简单串联不能得到理想结果，是理解论文的主图。

Selective Feature Injection 机制

!900

这一页最适合解释 SFI：如何提取 T2V 的 temporal prior，同时避免低质量外观污染 T2I 结果。

主结果页

!900

这一页集中展示与多个 baseline 的定性和定量比较，是说明 modular composition 路线竞争力的关键证据页。

核心实验与结果

论文显示组合式系统可以显著提升视频视觉质量和运动一致性。
主结果页说明它不是只在单一场景有效，而是在多个 baseline 对照下都具有优势。
速度相关分析进一步说明模块封装并不必然带来更重的推理成本。
这篇论文把“统一模型 vs 模块组合系统”的问题从抽象讨论拉回了实证层面。

局限或疑问

主要在视频合成侧成立，不能直接外推到图像生成/编辑的全局结论。
训练免费组合的长期上限是否高于深度统一训练框架，仍需更多长期比较。
目前更偏系统设计优势，跨任务统一对照仍然有限。

对当前 wiki 判断的影响

它显著补强了 questions/question-will-unified-image-models-sustain-their-advantage：模块组合系统也是非常强的竞争者。
它让 topics/video-generation 不再只围绕统一模型或单主干改造，而是增加了一条系统封装路线。
这篇论文提醒我们，工程上更强的系统未必来自更大的单体模型，也可能来自更聪明的模型组合方式。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Su_Encapsulated_Composition_of_Text-to-Image_and_Text-to-Video_Models_for_High-Quality_Video_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Su_Encapsulated_Composition_of_Text-to-Image_and_Text-to-Video_Models_for_High-Quality_Video_CVPR_2025_paper.pdf
http://arxiv.org/abs/2507.13753

Encapsulated Composition组合式文本到图像/视频模型高质量视频合成

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

组合式去噪框架

Selective Feature Injection 机制

主结果页

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

元数据