CosmicMan：面向人物的文本到图像基础模型

一句话结论

这篇工作把 human-centric text-to-image foundation model 路线补进库里，强化了人物生成这条专门化主线。

问题定义

它要解决的是通用文本到图像模型在人类主体生成上往往不够稳定、细节不够好的问题。对当前知识库来说，它补的是“面向人类主体的专门 foundation model”这一条路线。

方法概述

CosmicMan 构建一个专门面向 humans 的 text-to-image foundation model，强调在人类主体生成任务上的质量与一致性。

关键发现

它说明 image-generation 并不只在走统一通用模型路线，也有围绕特定重要对象域的专门 foundation model 路线。
它对以后分析“统一模型 vs 专门模型”很有参考价值。
它让 image-generation 对 human-centric generation 的覆盖更明确。

局限或疑问

它更偏人物域，不代表一般开放图像生成。
专门 foundation model 的收益常常与领域数据规模强耦合。
它是领域专门化节点，而不是普适统一路线。

原始链接

https://arxiv.org/abs/2404.01294
https://arxiv.org/pdf/2404.01294

备注

CosmicMan 在这套库里的作用，是把 human-centric text-to-image foundation model 路线补成明确分支。

元数据

{ "id": "2026-04-14-cosmicman", "type": "source", "title": "CosmicMan（CVPR 2024）：面向人物的文本到图像基础模型", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "image-generation", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Li, Shikai", "Fu, Jianglin", "Liu, Kaiyuan", "Wang, Wentao", "Lin, Kwan-Yee", "Wu, Wayne" ], "published_at": "2024/04/01", "canonical_links": [ "https://arxiv.org/abs/2404.01294", "https://arxiv.org/pdf/2404.01294" ], "raw_entry": "raw/ingest/2026-04-14-cosmicman/", "topics": [ "topics/image-generation" ], "entities": [ "entities/unified-image-generation-editing" ], "claims": [], "questions": [ "questions/question-will-unified-image-models-sustain-their-advantage" ] }

CosmicMan面向人物的文本到图像基础模型