Tora(CVPR 2025):面向视频生成的轨迹导向扩散 Transformer
会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:"2026-04-12"
一句话结论
这篇工作认为,显式轨迹条件是实现可扩展、可控视频生成的一条强路线,因为它能比纯文本更直接地约束运动轨迹和动态保真度。
问题定义
它要解决的是视频生成中“运动怎么发生”往往过于模糊的问题。只靠文本提示,模型可能知道场景内容,却难以稳定遵守用户想要的运动路径。
方法概述
方法上,Tora 先把轨迹编码成分层时空 motion patches,再通过 motion-guidance fuser 把这些控制信号注入时空 DiT 中。结果是模型同时接收文本、视觉和轨迹三类条件。
关键发现
- 运动控制被提升为视频生成中的一级条件通道。
- 轨迹条件与 DiT 的可扩展性看起来兼容。
- 论文关注的是动态保真度,而不只是静态画面质量。
局限或疑问
- 轨迹控制要求额外输入,使用门槛高于纯文本。
- 后续需要和其他运动控制方法正面对比。
- 控制收益可能会随场景复杂度变化。
原始链接
- https://openaccess.thecvf.com/content/CVPR2025/html/Zhang_Tora_Trajectory-oriented_Diffusion_Transformer_for_Video_Generation_CVPR_2025_paper.html
- https://openaccess.thecvf.com/content/CVPR2025/papers/Zhang_Tora_Trajectory-oriented_Diffusion_Transformer_for_Video_Generation_CVPR_2025_paper.pdf
相关页面
- topics/video-generation
- topics/diffusion-models
- topics/image-generation
- topics/generative-model-evaluation
备注
Tora 在 vault 中很关键,因为它把“可控视频生成”从模糊提示推进到了显式运动约束。对于后续整理 video-generation 的控制路线,这篇论文几乎可以作为代表性 anchor。