ArticleMetadataMain page

source · 2026-04-15

面向文本到图像生成的可验证与可复现人工评测(CVPR 2023)

面向文本到图像生成的可验证与可复现人工评测(CVPR 2023)

会议:CVPR 2023
发表日期:2023/04/04
资料加入日期:2026-04-14

一句话结论

这篇工作把“人类评测本身如何做得可验证、可复现”变成研究问题,补强了生成评测的制度层。

问题定义

它要解决的是文本到图像生成里人类评测常常主观、难复现、难公平比较的问题。对当前知识库来说,它补的是 evaluation 主线里很关键但容易被忽视的一层:不是只造 benchmark,而是改造评测流程本身。

方法概述

这项工作围绕文本到图像生成的人类评测协议做设计,强调评测过程的可验证性与可复现性,希望让不同模型之间的人工比较更可信、更可复查。

关键发现

  • 它说明生成模型评测不只是找新指标,还包括把人工评测做成更稳定的制度化流程。
  • 它与 FlashEval、AIGV-Assessor、Video-Bench 形成互补:一个偏人工协议,一个偏快速评测器,一个偏 LMM evaluator,一个偏 human-aligned benchmark。
  • 它能帮助我们以后判断哪些评测结论更值得信。

局限或疑问

  • 即使流程更可复现,人类评测仍然可能受任务设计和样本选择影响。
  • 它主要针对文本到图像,不直接覆盖视频编辑理解问题。
  • 它改善了评测可信度,但不自动提升评测覆盖的能力维度。

原始链接

  • https://arxiv.org/abs/2304.01816
  • https://arxiv.org/pdf/2304.01816

相关页面

备注

这篇工作在这套库里的作用,是把生成模型评测中的“人工评测协议治理”补成明确分支。