VidToMe：用于零样本视频编辑的视频 token merging

一句话结论

这篇工作把 token merging 接进零样本视频编辑，补强了视频编辑里的效率优化路线。

问题定义

它要解决的是零样本视频编辑在长序列上代价高、效率差的问题。对当前知识库来说，它补的是视频编辑除了结果质量外，对效率和可扩展性的持续追求。

方法概述

VidToMe 通过 video token merging 来加速 zero-shot video editing，在尽量维持编辑质量的同时减少计算负担。

关键发现

它说明视频编辑主线里“效率”已经独立成持续被优化的目标。
它和 RAVE 一起让这条线从噪声重排、token merging 等不同角度追求更可用的编辑系统。
它也把 diffusion-models 页里的效率主题更自然地接回 video-editing。

局限或疑问

token merging 通常会带来信息压缩损失。
效率收益和最终编辑质量之间仍然需要任务级权衡。
它更像系统优化路线，而不是能力上限突破。

原始链接

https://arxiv.org/abs/2312.10656
https://arxiv.org/pdf/2312.10656

备注

VidToMe 在这套库里的作用，是把视频编辑主线中的 token-merging 效率路线补成明确节点。

元数据

{ "id": "2026-04-14-vidtome", "type": "source", "title": "VidToMe（CVPR 2024）：用于零样本视频编辑的视频 token merging", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-editing", "video-generation", "efficiency", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Li, Xirui", "Ma, Chao", "Yang, Xiaokang", "Yang, Ming-Hsuan" ], "published_at": "2023/12/17", "canonical_links": [ "https://arxiv.org/abs/2312.10656", "https://arxiv.org/pdf/2312.10656" ], "raw_entry": "raw/ingest/2026-04-14-vidtome/", "topics": [ "topics/video-editing", "topics/video-generation", "topics/diffusion-models" ], "entities": [ "entities/video-editing-understanding" ], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

VidToMe用于零样本视频编辑的视频 token merging