No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

要約

最近の研究では、意味のある内部表現を学習することで、生成学習を高速化し、拡散変換器の生成品質を高めることができることが実証されている。しかし、既存のアプローチでは、複雑な表現学習フレームワークを追加導入するか、大規模で事前に学習された表現基礎モデルに依存して、本来の生成学習プロセス中に表現ガイダンスを提供する必要がある。本研究では、拡散変換器に固有のユニークな識別プロセスにより、外部の表現コンポーネントを必要とすることなく、そのようなガイダンスを提供できることを仮定する。そこで我々は、自己蒸留的な方法によって表現ガイダンスを得る、シンプルかつ単純な方法である自己表現整列(Self-Representation A}lignment: SRA)を提案する。具体的には、SRAは、ノイズの大きい前の層の拡散変換器の出力潜在表現を、ノイズの小さい後の層の出力潜在表現に整列させ、生成学習過程のみにおいて、全体的な表現学習を漸進的に強化する。実験結果は、DiTsとSiTsにSRAを適用することで、一貫した性能向上が得られることを示している。さらに、SRAは、補助的で複雑な表現学習フレームワークに依存するアプローチを大幅に上回るだけでなく、強力な外部表現プリアに大きく依存する手法に匹敵する性能を達成する。

要約(オリジナル)

Recent studies have demonstrated that learning a meaningful internal representation can both accelerate generative training and enhance generation quality of the diffusion transformers. However, existing approaches necessitate to either introduce an additional and complex representation training framework or rely on a large-scale, pre-trained representation foundation model to provide representation guidance during the original generative training process. In this study, we posit that the unique discriminative process inherent to diffusion transformers enables them to offer such guidance without requiring external representation components. We therefore propose Self-Representation A}lignment (SRA), a simple yet straightforward method that obtain representation guidance through a self-distillation manner. Specifically, SRA aligns the output latent representation of the diffusion transformer in earlier layer with higher noise to that in later layer with lower noise to progressively enhance the overall representation learning during only generative training process. Experimental results indicate that applying SRA to DiTs and SiTs yields consistent performance improvements. Moreover, SRA not only significantly outperforms approaches relying on auxiliary, complex representation training frameworks but also achieves performance comparable to methods that heavily dependent on powerful external representation priors.

arxiv情報

著者 Dengyang Jiang,Mengmeng Wang,Liuzhuozheng Li,Lei Zhang,Haoyu Wang,Wei Wei,Guang Dai,Yanning Zhang,Jingdong Wang
発行日 2025-05-05 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク