ArticleMetadataMain page

source · 2026-04-15

STI-Bench(ICCV 2025):多模态大模型是否已准备好进行精确时空世界理解

STI-Bench(ICCV 2025):多模态大模型是否已准备好进行精确时空世界理解

会议:ICCV 2025
发表日期:2025-01-01
资料加入日期:2026-04-14

一句话结论

这篇工作把精确时空世界理解 benchmark 补进库里,强化了 video-understanding 对“是否真正理解时空关系”的测试层。

问题定义

它要解决的是多模态大模型看起来会做视频任务,但未必具备精确空间-时间理解的问题。对当前知识库来说,它正好补上比 MVBench 更尖锐的一类诊断基准。

方法概述

STI-Bench 通过精确 spatial-temporal world understanding 任务来测试 MLLMs,强调模型是否真的理解了视频中的时空关系而不是只抓浅层线索。

关键发现

  • 它把 video-understanding 里的“精确时空理解”单独拉成 benchmark 维度。
  • 它对以后判断编辑理解是否建立在真实时空理解之上非常有帮助。
  • 它与 MVBench、LVBench、ANetQA 形成互补:综合、长视频、组合推理、精确时空理解。

局限或疑问

  • 它更偏理解诊断,不直接面向生成或编辑控制。
  • 精确时空 benchmark 的任务设计本身也会影响结论。
  • 它是关键诊断层,但不是全部视频理解能力。

原始链接

  • https://openaccess.thecvf.com/content/ICCV2025/html/Li_STI-Bench_Are_MLLMs_Ready_for_Precise_Spatial-Temporal_World_Understanding_ICCV_2025_paper.html
  • https://openaccess.thecvf.com/content/ICCV2025/papers/Li_STI-Bench_Are_MLLMs_Ready_for_Precise_Spatial-Temporal_World_Understanding_ICCV_2025_paper.pdf

相关页面

备注

STI-Bench 在这套库里的作用,是把精确时空世界理解 benchmark 补成 video-understanding 的重要分支。