DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

要約

この作業では、テキストからイメージの生成のための拡散トランス(DIT)を経験的に研究し、建築の選択、テキスト条件の戦略、トレーニングプロトコルに焦点を当てています。
PixartスタイルとMMDITバリアントを含むさまざまなDITベースのアーキテクチャを評価し、連結したテキストとノイズ入力を直接処理する標準的なDITバリアントと比較します。
驚くべきことに、我々の調査結果は、特にスケーリングされた場合、優れたパラメーター効率を実証しながら、標準DITのパフォーマンスがこれらの特殊なモデルに匹敵することを明らかにしています。
レイヤーワイズパラメーター共有戦略を活用すると、MMDITアーキテクチャと比較してモデルサイズが66%のさらに減少し、パフォーマンスへの影響が最小限に抑えられます。
テキストエンコーダーや変分自動エンコーダー(VAE)などの重要なコンポーネントの詳細な分析に基づいて、DIT-AIRとDIT-AIR-LITEを紹介します。
監視された報酬の微調整により、Dit-AirはGenevalおよびT2I Compbenchで最先端のパフォーマンスを達成しますが、Dit-Air-Liteはコンパクトなサイズにもかかわらず、ほとんどの既存のモデルを上回り、非常に競争力があります。

要約(オリジナル)

In this work, we empirically study Diffusion Transformers (DiTs) for text-to-image generation, focusing on architectural choices, text-conditioning strategies, and training protocols. We evaluate a range of DiT-based architectures–including PixArt-style and MMDiT variants–and compare them with a standard DiT variant which directly processes concatenated text and noise inputs. Surprisingly, our findings reveal that the performance of standard DiT is comparable with those specialized models, while demonstrating superior parameter-efficiency, especially when scaled up. Leveraging the layer-wise parameter sharing strategy, we achieve a further reduction of 66% in model size compared to an MMDiT architecture, with minimal performance impact. Building on an in-depth analysis of critical components such as text encoders and Variational Auto-Encoders (VAEs), we introduce DiT-Air and DiT-Air-Lite. With supervised and reward fine-tuning, DiT-Air achieves state-of-the-art performance on GenEval and T2I CompBench, while DiT-Air-Lite remains highly competitive, surpassing most existing models despite its compact size.

arxiv情報

著者 Chen Chen,Rui Qian,Wenze Hu,Tsu-Jui Fu,Lezhi Li,Bowen Zhang,Alex Schwing,Wei Liu,Yinfei Yang
発行日 2025-03-13 17:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク