STI-Bench：多模态大模型是否已准备好进行精确时空世界理解

一句话结论

这篇工作把精确时空世界理解 benchmark 补进库里，强化了 video-understanding 对“是否真正理解时空关系”的测试层。

问题定义

它要解决的是多模态大模型看起来会做视频任务，但未必具备精确空间-时间理解的问题。对当前知识库来说，它正好补上比 MVBench 更尖锐的一类诊断基准。

方法概述

STI-Bench 通过精确 spatial-temporal world understanding 任务来测试 MLLMs，强调模型是否真的理解了视频中的时空关系而不是只抓浅层线索。

关键发现

它把 video-understanding 里的“精确时空理解”单独拉成 benchmark 维度。
它对以后判断编辑理解是否建立在真实时空理解之上非常有帮助。
它与 MVBench、LVBench、ANetQA 形成互补：综合、长视频、组合推理、精确时空理解。

局限或疑问

它更偏理解诊断，不直接面向生成或编辑控制。
精确时空 benchmark 的任务设计本身也会影响结论。
它是关键诊断层，但不是全部视频理解能力。

原始链接

https://openaccess.thecvf.com/content/ICCV2025/html/Li_STI-Bench_Are_MLLMs_Ready_for_Precise_Spatial-Temporal_World_Understanding_ICCV_2025_paper.html
https://openaccess.thecvf.com/content/ICCV2025/papers/Li_STI-Bench_Are_MLLMs_Ready_for_Precise_Spatial-Temporal_World_Understanding_ICCV_2025_paper.pdf

备注

STI-Bench 在这套库里的作用，是把精确时空世界理解 benchmark 补成 video-understanding 的重要分支。

元数据

{ "id": "2026-04-14-sti-bench", "type": "source", "title": "STI-Bench（ICCV 2025）：多模态大模型是否已准备好进行精确时空世界理解", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "ICCV 2025", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-understanding", "benchmarking", "vision-language", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Yun Li", "Yiming Zhang", "Tao Lin", "Xiangrui Liu", "Wenxiao Cai", "Zheng Liu", "Bo Zhao" ], "published_at": "2025-01-01", "canonical_links": [ "https://openaccess.thecvf.com/content/ICCV2025/html/Li_STI-Bench_Are_MLLMs_Ready_for_Precise_Spatial-Temporal_World_Understanding_ICCV_2025_paper.html", "https://openaccess.thecvf.com/content/ICCV2025/papers/Li_STI-Bench_Are_MLLMs_Ready_for_Precise_Spatial-Temporal_World_Understanding_ICCV_2025_paper.pdf" ], "raw_entry": "raw/ingest/2026-04-14-sti-bench/", "topics": [ "topics/video-understanding", "topics/generative-model-evaluation", "topics/vision-language" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

STI-Bench多模态大模型是否已准备好进行精确时空世界理解