ArticleMetadataMain page

source · 2026-04-17

OmniGen(CVPR 2025):统一图像生成

OmniGen(CVPR 2025):统一图像生成

会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:2026-04-12
深分析稿:raw/ingest/2026-04-12-omnigen/analysis

一句话结论

OmniGen 把图像系统往“统一接口 + 端到端工作流”方向推进了一大步:同一个模型原生覆盖 text-to-image、image editing、subject-driven generation 和 visual-conditional generation,并把插件式工作流简化成统一指令驱动流程。

论文定位

这篇论文是统一图像模型路线中的“系统接口派”代表作。它主打三个词:unification、simplicity、knowledge transfer

问题定义

OmniGen 关注的是图像生成系统长期存在的三个结构性问题:

  • 图像任务被拆成多个专用流水线
  • 多条件控制依赖额外插件和中间步骤
  • 不同任务之间难共享知识与能力

作者希望把图像任务改写成一个更像 LLM 的统一交互接口。

方法概述

论文的核心机制有三层:

  1. 统一框架
  2. 文本被 token 化,输入图像经 VAE 映射为 embedding,再进入统一 Transformer 式生成流程;Figure 2 明确说明 OmniGen 接受 free-form multi-modal prompts,并通过统一流程生成图像。

  1. 统一任务格式
  2. OmniGen 把 image editing、subject-driven generation、visual-conditional generation、few-shot / mixed-modal to image 等任务改写到统一输入输出格式里。

  1. 跨任务知识迁移
  2. 论文把 knowledge transfer 作为核心主张,认为统一格式训练可让模型更好处理 unseen tasks 与 unseen domains。

关键发现

  • 统一模型可以原生覆盖多种图像任务,而不是依赖插件堆叠。
  • simplicity 本身就是系统级优势,它直接改善了工作流复杂度。
  • 统一格式训练被明确当作知识迁移机制,而不只是任务混合。
  • 论文已经开始讨论 reasoning 和 chain-of-thought,说明统一图像系统正在向更通用能力边界外溢。

关键图示

OmniGen 框架图

!900

Figure 2 是最关键的方法图,展示文本 token、图像 token、Transformer 与 VAE 如何构成统一图像生成框架,并说明 OmniGen 支持 free-form multi-modal prompts。

统一任务设定与数据格式

!900

这一页展示 X2I dataset、mixed-modal prompts、subject-driven generation 与 computer vision tasks 等内容,最能解释 OmniGen 统一了哪些任务类型。

主结果总览

!900

这一页同时提供多任务质化结果、主体驱动案例和 benchmark 定量结果,是说明 OmniGen 不是概念统一而是有效统一的关键证据。

核心实验与结果

  • 论文在主结果页同时覆盖 text-to-image、multi-modal-to-image 和 subject-driven generation。
  • 结果页既有任务广度,也有 benchmark 表格,因此很适合当作统一路线的综合证据页。
  • OmniGen 试图用一个更简单的系统结构完成过去需要多条工作流拼接的任务。
  • reasoning 与 step-by-step 生成部分说明作者在探索统一图像系统进一步的能力边界。

局限或疑问

  • 统一接口的系统优势很明显,单项任务的峰值性能仍需继续与专用系统对照。
  • reasoning / chain-of-thought 相关能力目前更像潜力展示,后续需要更严格验证。
  • 统一模型在高阶可控性和超复杂场景下的稳定性还值得继续跟踪。

对当前 wiki 判断的影响

相关页面

原始链接

  • https://openaccess.thecvf.com/content/CVPR2025/html/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.html
  • https://openaccess.thecvf.com/content/CVPR2025/papers/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.pdf