OmniGen：统一图像生成

一句话结论

OmniGen 把图像系统往“统一接口 + 端到端工作流”方向推进了一大步：同一个模型原生覆盖 text-to-image、image editing、subject-driven generation 和 visual-conditional generation，并把插件式工作流简化成统一指令驱动流程。

论文定位

这篇论文是统一图像模型路线中的“系统接口派”代表作。它主打三个词：unification、simplicity、knowledge transfer。

问题定义

OmniGen 关注的是图像生成系统长期存在的三个结构性问题：

图像任务被拆成多个专用流水线
多条件控制依赖额外插件和中间步骤
不同任务之间难共享知识与能力

作者希望把图像任务改写成一个更像 LLM 的统一交互接口。

方法概述

论文的核心机制有三层：

统一框架

文本被 token 化，输入图像经 VAE 映射为 embedding，再进入统一 Transformer 式生成流程；Figure 2 明确说明 OmniGen 接受 free-form multi-modal prompts，并通过统一流程生成图像。

统一任务格式

OmniGen 把 image editing、subject-driven generation、visual-conditional generation、few-shot / mixed-modal to image 等任务改写到统一输入输出格式里。

跨任务知识迁移

论文把 knowledge transfer 作为核心主张，认为统一格式训练可让模型更好处理 unseen tasks 与 unseen domains。

关键发现

统一模型可以原生覆盖多种图像任务，而不是依赖插件堆叠。
simplicity 本身就是系统级优势，它直接改善了工作流复杂度。
统一格式训练被明确当作知识迁移机制，而不只是任务混合。
论文已经开始讨论 reasoning 和 chain-of-thought，说明统一图像系统正在向更通用能力边界外溢。

关键图示

OmniGen 框架图

!900

Figure 2 是最关键的方法图，展示文本 token、图像 token、Transformer 与 VAE 如何构成统一图像生成框架，并说明 OmniGen 支持 free-form multi-modal prompts。

统一任务设定与数据格式

!900

这一页展示 X2I dataset、mixed-modal prompts、subject-driven generation 与 computer vision tasks 等内容，最能解释 OmniGen 统一了哪些任务类型。

主结果总览

!900

这一页同时提供多任务质化结果、主体驱动案例和 benchmark 定量结果，是说明 OmniGen 不是概念统一而是有效统一的关键证据。

核心实验与结果

论文在主结果页同时覆盖 text-to-image、multi-modal-to-image 和 subject-driven generation。
结果页既有任务广度，也有 benchmark 表格，因此很适合当作统一路线的综合证据页。
OmniGen 试图用一个更简单的系统结构完成过去需要多条工作流拼接的任务。
reasoning 与 step-by-step 生成部分说明作者在探索统一图像系统进一步的能力边界。

局限或疑问

统一接口的系统优势很明显，单项任务的峰值性能仍需继续与专用系统对照。
reasoning / chain-of-thought 相关能力目前更像潜力展示，后续需要更严格验证。
统一模型在高阶可控性和超复杂场景下的稳定性还值得继续跟踪。

对当前 wiki 判断的影响

它强化了 topics/image-generation 中“图像系统越来越像通用视觉变换模型”的判断。
它补强了 entities/unified-image-generation-editing：统一路线内部存在一类非常强调接口统一和工作流简化的方法。
它为 claims/claim-unified-models-may-outcompete-specialized-image-pipelines 提供了系统形态层的支持证据。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.pdf

OmniGen统一图像生成

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

OmniGen 框架图

统一任务设定与数据格式

主结果总览

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

元数据