ArticleMetadataMain page

source · 2026-04-15

MaskINT(CVPR 2024):基于插值式非自回归 masked transformer 的视频编辑

MaskINT(CVPR 2024):基于插值式非自回归 masked transformer 的视频编辑

会议:CVPR 2024
发表日期:2023/12/19
资料加入日期:2026-04-14

一句话结论

这篇工作把 masked transformer 路线接入视频编辑,补强了扩散之外的另一种建模选择。

问题定义

它要解决的是视频编辑是否一定要完全依赖扩散范式,以及怎样在编辑过程中更好处理时序与掩码插值问题。对当前知识库来说,它补的是 video-editing 中较少出现的 transformer 型路线。

方法概述

MaskINT 采用 interpolative non-autoregressive masked transformers 来做视频编辑,通过掩码和插值式生成机制处理视频内容修改。

关键发现

  • 它提醒我们,近三年 video-editing 并不完全被扩散模型垄断,仍有 masked transformer 这类替代建模路线。
  • 它能帮助之后比较“扩散式视频编辑”和“masked transformer 视频编辑”各自的强弱点。
  • 它也让 video-generation / video-editing 与更广泛的 sequence modeling 路线重新接上。

局限或疑问

  • 当前库里这一路线证据还不够厚,暂时更适合作为对照节点。
  • masked transformer 在高保真视觉生成上的竞争力仍需结合更多工作判断。
  • 它提供了架构多样性,但尚不足以改写主流扩散路线判断。

原始链接

  • https://arxiv.org/abs/2312.12468
  • https://arxiv.org/pdf/2312.12468

相关页面

备注

MaskINT 在这套库里的作用,是给 video-editing 主线补上一个非扩散的对照架构节点。