MaskINT（CVPR 2024）：基于插值式非自回归 masked transformer 的视频编辑

会议：CVPR 2024

发表日期：2023/12/19

资料加入日期：2026-04-14

一句话结论

这篇工作把 masked transformer 路线接入视频编辑，补强了扩散之外的另一种建模选择。

问题定义

它要解决的是视频编辑是否一定要完全依赖扩散范式，以及怎样在编辑过程中更好处理时序与掩码插值问题。对当前知识库来说，它补的是 video-editing 中较少出现的 transformer 型路线。

方法概述

MaskINT 采用 interpolative non-autoregressive masked transformers 来做视频编辑，通过掩码和插值式生成机制处理视频内容修改。

关键发现

它提醒我们，近三年 video-editing 并不完全被扩散模型垄断，仍有 masked transformer 这类替代建模路线。
它能帮助之后比较“扩散式视频编辑”和“masked transformer 视频编辑”各自的强弱点。
它也让 video-generation / video-editing 与更广泛的 sequence modeling 路线重新接上。

局限或疑问

当前库里这一路线证据还不够厚，暂时更适合作为对照节点。
masked transformer 在高保真视觉生成上的竞争力仍需结合更多工作判断。
它提供了架构多样性，但尚不足以改写主流扩散路线判断。

原始链接

https://arxiv.org/abs/2312.12468
https://arxiv.org/pdf/2312.12468

备注

MaskINT 在这套库里的作用，是给 video-editing 主线补上一个非扩散的对照架构节点。

Metadata

{ "id": "2026-04-14-maskint", "type": "source", "title": "MaskINT（CVPR 2024）：基于插值式非自回归 masked transformer 的视频编辑", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-editing", "video-generation", "autoregressive", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Ma, Haoyu", "Mahdizadehaghdam, Shahin", "Wu, Bichen", "Fan, Zhipeng", "Gu, Yuchao", "Zhao, Wenliang", "Shapira, Lior", "Xie, Xiaohui" ], "published_at": "2023/12/19", "canonical_links": [ "https://arxiv.org/abs/2312.12468", "https://arxiv.org/pdf/2312.12468" ], "raw_entry": "raw/ingest/2026-04-14-maskint/", "topics": [ "topics/video-editing", "topics/video-generation" ], "entities": [ "entities/video-editing-understanding" ], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }