SOK-Bench(CVPR 2024):带开放世界知识对齐的情境视频推理基准
会议:CVPR 2024
发表日期:2024/05/15
资料加入日期:2026-04-14
一句话结论
这篇工作把情境视频推理和开放世界知识结合起来,补强了 video-understanding 里更高层 reasoning benchmark 的覆盖。
问题定义
它要解决的是模型即使能看懂局部视频内容,也未必能在情境中结合外部知识做更深层推理的问题。对当前知识库来说,它补的是“视频理解是否只是表面识别”这一层。
方法概述
SOK-Bench 构建结合 situated video reasoning 与 aligned open-world knowledge 的 benchmark,用来测试模型是否能把视频内容与外部知识对接起来。
关键发现
- 它把 video-understanding 从“看懂内容”继续推进到“能否在情境中推理”。
- 它非常适合支撑以后关于视频理解是否能支持更复杂 editing/agentic interfaces 的判断。
- 它和 MVBench、LVBench、HallusionBench 形成互补:综合、长视频、failure diagnosis、情境推理。
局限或疑问
- 它更偏 reasoning benchmark,不直接覆盖低层视觉质量判断。
- 开放世界知识对齐会引入额外变量。
- 它适合补 reasoning 层,但不代表全部理解能力。
原始链接
- https://arxiv.org/abs/2405.09713
- https://arxiv.org/pdf/2405.09713
相关页面
- topics/video-understanding
- topics/generative-model-evaluation
- questions/question-do-benchmarks-track-real-video-editing-understanding
备注
SOK-Bench 在这套库里的作用,是把 situated video reasoning benchmark 补成明确分支。