ArticleMetadataMain page

source · 2026-04-17

MotionStone(CVPR 2025):用 DiT 解耦运动强度调制的图像到视频生成

MotionStone(CVPR 2025):用 DiT 解耦运动强度调制的图像到视频生成

会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:2026-04-14
深分析稿:raw/ingest/2026-04-14-motionstone/analysis

一句话结论

MotionStone 把图生视频里的 motion control 推到了更细粒度层:通过将 object motion 与 camera motion 强度解耦,并分别注入 Diffusion Transformer,模型能更稳定、更可解释地控制视频动态。

论文定位

这篇论文是“DiT 主干结构改造 + 运动控制解耦”路线里的代表作。它最重要的贡献不在于统一任务,而在于把 controllability 的增益明确地放在主干结构设计上。

问题定义

作者认为图生视频生成长期存在一个关键问题:

  • 运动强度控制过于粗糙,
  • 对象运动与相机运动混在一起,
  • 用户很难精确指定视频到底“谁在动、动多大”。

方法概述

MotionStone 的关键设计有三层:

  1. motion intensity estimation
  2. 学习估计 object motion intensity 与 camera motion intensity。

  1. decoupled motion embedding
  2. 将对象和相机两类运动分别编码,而不是混成一个统一条件。

  1. motion condition injection into DiT
  2. 将解耦后的 motion embedding 分别注入 Diffusion Transformer,实现更稳定的 controllability。

关键发现

  • 运动控制需要结构化解耦,而不是单一粗糙条件。
  • decoupled injection 是这篇论文最核心的结构设计。
  • 定量与定性结果都说明架构设计本身可以成为强增益来源。
  • MotionStone 继续强化了 DiT 作为可扩展生成主干的地位。

关键图示

方法总览图

!900

这一页展示 object / camera 两类运动强度如何被估计、编码并注入 DiT,是理解 MotionStone 的关键主图。

主定性结果

!900

这一页与 I2VGen-XL、SVD、AnimateAnything、CogVideoX 等方法做定性对比,是说明其运动控制能力的关键结果页。

定量与消融

!900

这一页同时给出主结果定量比较、消融实验以及 motion condition injection design,是最适合作为证据页的页面。

核心实验与结果

  • MotionStone 显著提升了 object motion 与 camera motion 的可控性。
  • 主结果页显示它在多个场景里更能同时保持主体动作、镜头运动和视觉稳定性。
  • 消融说明 decoupled motion embedding 和 decoupled injection 都是有效设计。
  • 这篇论文清楚地把“性能增益来自架构改造”摆到了前台。

局限或疑问

  • 它主要提供视频生成证据,不直接回答图像编辑任务。
  • 即便架构收益明显,也不能据此否定高质量监督数据的重要性。
  • 仍需要和更严格控制数据变量的研究做配套阅读。

对当前 wiki 判断的影响

相关页面

原始链接

  • https://openaccess.thecvf.com/content/CVPR2025/html/Shi_MotionStone_Decoupled_Motion_Intensity_Modulation_with_Diffusion_Transformer_for_Image-to-Video_CVPR_2025_paper.html
  • https://openaccess.thecvf.com/content/CVPR2025/papers/Shi_MotionStone_Decoupled_Motion_Intensity_Modulation_with_Diffusion_Transformer_for_Image-to-Video_CVPR_2025_paper.pdf
  • http://arxiv.org/abs/2412.05848