通过多模态大模型实现语言驱动视频修补（CVPR 2024）

会议：CVPR 2024

发表日期：2024/01/18

资料加入日期：2026-04-14

一句话结论

这篇工作把语言驱动视频修补和多模态大模型接到一起，补强了 video-editing 与 vision-language 的交界路线。

问题定义

它要解决的是视频修补如何真正听懂语言指令、而不是只做低层补洞的问题。对当前知识库来说，它补的是 video editing 更明显向理解驱动接口演化的信号。

方法概述

该工作利用 multimodal large language models 支撑 language-driven video inpainting，让视频修补更直接地接收语言条件与理解约束。

关键发现

它说明视频修补也开始不只是低层任务，而是在向 language-conditioned editing 转变。
它把 video-editing、vision-language、video-understanding 三页更紧地连了起来。
它为之后看“编辑是否真的依赖理解能力”提供了很好的桥梁样本。

局限或疑问

语言驱动修补的真实收益仍需和更传统视觉方法对照。
MM-LLM 接入通常增加系统复杂度与不稳定性。
它是接口演化信号，但还需要更多任务级证据。

原始链接

https://arxiv.org/abs/2401.10226
https://arxiv.org/pdf/2401.10226

备注

这篇工作在库里的作用，是把语言驱动视频修补这条 vision-language 交叉路线补成明确节点。

Metadata

{ "id": "2026-04-14-language-driven-video-inpainting", "type": "source", "title": "通过多模态大模型实现语言驱动视频修补（CVPR 2024）", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-editing", "vision-language", "video-understanding", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Wu, Jianzong", "Li, Xiangtai", "Si, Chenyang", "Zhou, Shangchen", "Yang, Jingkang", "Zhang, Jiangning", "Li, Yining", "Chen, Kai", "Tong, Yunhai", "Liu, Ziwei", "Loy, Chen Change" ], "published_at": "2024/01/18", "canonical_links": [ "https://arxiv.org/abs/2401.10226", "https://arxiv.org/pdf/2401.10226" ], "raw_entry": "raw/ingest/2026-04-14-language-driven-video-inpainting/", "topics": [ "topics/video-editing", "topics/vision-language", "topics/video-understanding" ], "entities": [ "entities/video-editing-understanding" ], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }