D²iT：用于高精度图像生成的动态扩散 Transformer

一句话结论

D²iT 证明了标准 DiT 的固定压缩是一个真实瓶颈：只有把空间预算分配推进到 latent 表示层和多粒度噪声建模层，才能同时兼顾局部真实感、全局一致性和效率。

论文定位

这篇论文是 DiT 主干内部精修路线的代表作。它不做统一任务扩张，而是直接改造生成主干内部的粒度分配逻辑。

问题定义

作者指出标准 DiT 的核心局限是固定压缩：

重要区域表达不足会损伤局部真实感。
全局统一高密度表示又会显著推高计算成本，并影响整体效率和一致性。

它要解决的是“不同区域不该被一视同仁地压缩和建模”。

方法概述

D²iT 包含两阶段设计：

Dynamic VAE（DVAE）

通过 Dynamic Grain Coding 和 hierarchical encoder，对不同图像区域采用不同 downsampling rates，得到多粒度 latent 表示。

Dynamic Diffusion Transformer（D²iT）

由 Dynamic Grain Transformer 和 Dynamic Content Transformer 组成：前者预测 grain map，后者按 grain map 做多粒度噪声建模与内容生成。

关键发现

生成质量问题被推进到了 latent 表示与空间预算分配层。
grain map 预测是让动态粒度真正可训练、可推理的关键。
D²iT 的核心不只是“哪里更细”，而是“粗粒度全局预测 + 细粒度局部修正”的联合机制。
这篇论文把 DiT 路线从统一 patch 粒度推进到动态区域粒度。

关键图示

两阶段总体框架

!900

这一页同时展示 Stage 1 的 DVAE 和 Stage 2 的 D²iT，并展开 Dynamic Grain Transformer 与 Dynamic Content Transformer 的关系，是理解论文的核心主图。

主结果与 grain ratio 分析

!900

这一页同时给出 ImageNet 主结果、grain map 可视化和 grain ratio 分析，是说明 D²iT 既有效又合理的关键证据页。

消融与训练收敛

!900

这一页集中展示模块消融、RefineNet 层数影响、Dynamic Grain Transformer 效果和训练收敛对比，是理解论文内部证据链的最佳页面。

核心实验与结果

D²iT 在 FFHQ 与 ImageNet 等生成任务上展现出很强竞争力。
grain map 定性可视化表明模型会优先把细粒度预算分给结构复杂区域。
grain ratio 分析说明动态粒度存在合理最优区间，而不是越细越好。
消融表明 DVAE、routing、grain prediction 和 refinement 都在共同贡献性能。

局限或疑问

这条路线主要服务生成主干本身，并不直接扩张到统一生成-编辑系统。
工程复杂度高于更简单的 DiT baseline。
它在部署和跨任务迁移上的外溢价值，仍需更多后续证据。

对当前 wiki 判断的影响

它强化了 topics/image-generation 中“生成质量问题已经推进到 latent 表示层和预算分配层”的判断。
它也提醒 claims/claim-unified-models-may-outcompete-specialized-image-pipelines：专用生成主干优化依旧非常强，统一路线并没有天然压倒性优势。
D²iT 是统一路线之外，对生成底座持续深挖的一条重要反向证据。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Jia_D2iT_Dynamic_Diffusion_Transformer_for_Accurate_Image_Generation_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Jia_D2iT_Dynamic_Diffusion_Transformer_for_Accurate_Image_Generation_CVPR_2025_paper.pdf

D²iT用于高精度图像生成的动态扩散 Transformer

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

两阶段总体框架

主结果与 grain ratio 分析

消融与训练收敛

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

元数据