面向文本到图像生成的可验证与可复现人工评测

一句话结论

这篇工作把“人类评测本身如何做得可验证、可复现”变成研究问题，补强了生成评测的制度层。

问题定义

它要解决的是文本到图像生成里人类评测常常主观、难复现、难公平比较的问题。对当前知识库来说，它补的是 evaluation 主线里很关键但容易被忽视的一层：不是只造 benchmark，而是改造评测流程本身。

方法概述

这项工作围绕文本到图像生成的人类评测协议做设计，强调评测过程的可验证性与可复现性，希望让不同模型之间的人工比较更可信、更可复查。

关键发现

它说明生成模型评测不只是找新指标，还包括把人工评测做成更稳定的制度化流程。
它与 FlashEval、AIGV-Assessor、Video-Bench 形成互补：一个偏人工协议，一个偏快速评测器，一个偏 LMM evaluator，一个偏 human-aligned benchmark。
它能帮助我们以后判断哪些评测结论更值得信。

局限或疑问

即使流程更可复现，人类评测仍然可能受任务设计和样本选择影响。
它主要针对文本到图像，不直接覆盖视频编辑理解问题。
它改善了评测可信度，但不自动提升评测覆盖的能力维度。

原始链接

https://arxiv.org/abs/2304.01816
https://arxiv.org/pdf/2304.01816

备注

这篇工作在这套库里的作用，是把生成模型评测中的“人工评测协议治理”补成明确分支。

元数据

{ "id": "2026-04-14-verifiable-human-eval-t2i", "type": "source", "title": "面向文本到图像生成的可验证与可复现人工评测（CVPR 2023）", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "CVPR 2023", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "image-generation", "evaluation", "benchmarking", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Otani, Mayu", "Togashi, Riku", "Sawai, Yu", "Ishigami, Ryosuke", "Nakashima, Yuta", "Rahtu, Esa", "Heikkilä, Janne", "Satoh, Shin'ichi" ], "published_at": "2023/04/04", "canonical_links": [ "https://arxiv.org/abs/2304.01816", "https://arxiv.org/pdf/2304.01816" ], "raw_entry": "raw/ingest/2026-04-14-verifiable-human-eval-t2i/", "topics": [ "topics/image-generation", "topics/generative-model-evaluation" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }