Tora（CVPR 2025）：面向视频生成的轨迹导向扩散 Transformer

会议：CVPR 2025

发表日期：2025-06-11

资料加入日期："2026-04-12"

一句话结论

这篇工作认为，显式轨迹条件是实现可扩展、可控视频生成的一条强路线，因为它能比纯文本更直接地约束运动轨迹和动态保真度。

问题定义

它要解决的是视频生成中“运动怎么发生”往往过于模糊的问题。只靠文本提示，模型可能知道场景内容，却难以稳定遵守用户想要的运动路径。

方法概述

方法上，Tora 先把轨迹编码成分层时空 motion patches，再通过 motion-guidance fuser 把这些控制信号注入时空 DiT 中。结果是模型同时接收文本、视觉和轨迹三类条件。

关键发现

运动控制被提升为视频生成中的一级条件通道。
轨迹条件与 DiT 的可扩展性看起来兼容。
论文关注的是动态保真度，而不只是静态画面质量。

局限或疑问

轨迹控制要求额外输入，使用门槛高于纯文本。
后续需要和其他运动控制方法正面对比。
控制收益可能会随场景复杂度变化。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Zhang_Tora_Trajectory-oriented_Diffusion_Transformer_for_Video_Generation_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Zhang_Tora_Trajectory-oriented_Diffusion_Transformer_for_Video_Generation_CVPR_2025_paper.pdf

备注

Tora 在 vault 中很关键，因为它把“可控视频生成”从模糊提示推进到了显式运动约束。对于后续整理 video-generation 的控制路线，这篇论文几乎可以作为代表性 anchor。

Metadata

{ "id": "2026-04-12-tora", "type": "source", "title": "Tora（CVPR 2025）：面向视频生成的轨迹导向扩散 Transformer", "status": "reviewed", "created": "2026-04-12", "updated": "2026-04-15", "venue": "CVPR 2025", "ingested_at": "2026-04-12", "tags": [ "near-cvpr-2025", "video-generation", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Zhenghao Zhang", "Junchao Liao", "Menghao Li", "ZuoZhuo Dai", "Bingxue Qiu", "Siyu Zhu", "Long Qin", "Weizhi Wang" ], "published_at": "2025-06-11", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2025/html/Zhang_Tora_Trajectory-oriented_Diffusion_Transformer_for_Video_Generation_CVPR_2025_paper.html", "https://openaccess.thecvf.com/content/CVPR2025/papers/Zhang_Tora_Trajectory-oriented_Diffusion_Transformer_for_Video_Generation_CVPR_2025_paper.pdf" ], "raw_entry": "raw/ingest/2026-04-12-tora/", "topics": [ "topics/video-generation", "topics/diffusion-models" ], "entities": [], "claims": [], "questions": [] }