要約
拡散トランスは、テキスト間合成に広く採用されています。
これらのモデルを数十億のパラメーターまでスケーリングすることは有望ですが、現在のサイズを超えたスケーリングの有効性は、露出しておらず挑戦的なままです。
画像世代の計算不均一性を明示的に活用することにより、専門家の選択ルーティングを備えた拡散トランスのための新しい混合物(MOE)モデル(MOE)モデル(MOE)モデル(EC-DIT)の新しいファミリーを開発します。
EC-DITは、入力テキストを理解し、それぞれの画像パッチを生成するように割り当てられた計算を適応的に最適化することを学び、さまざまなテキストイメージの複雑さに合わせた不均一な計算を可能にします。
この不均一性は、最大970億のパラメーターまでのEC-DITをスケーリングし、トレーニングの収束、テキストから画像への調整、および密集したモデルおよび従来のMOEモデルよりも全体的な生成品質の大幅な改善を達成する効率的な方法を提供します。
広範なアブレーションを通じて、EC-DITは、エンドツーエンドトレーニングを通じてさまざまなテキストの重要性を認識することにより、優れたスケーラビリティと適応的な計算割り当てを実証することを示します。
特に、テキストから画像へのアラインメント評価では、最大のモデルは71.68%の最先端の遺伝的スコアを達成し、直感的な解釈可能性で競争力のある推論速度を維持しています。
要約(オリジナル)
Diffusion transformers have been widely adopted for text-to-image synthesis. While scaling these models up to billions of parameters shows promise, the effectiveness of scaling beyond current sizes remains underexplored and challenging. By explicitly exploiting the computational heterogeneity of image generations, we develop a new family of Mixture-of-Experts (MoE) models (EC-DIT) for diffusion transformers with expert-choice routing. EC-DIT learns to adaptively optimize the compute allocated to understand the input texts and generate the respective image patches, enabling heterogeneous computation aligned with varying text-image complexities. This heterogeneity provides an efficient way of scaling EC-DIT up to 97 billion parameters and achieving significant improvements in training convergence, text-to-image alignment, and overall generation quality over dense models and conventional MoE models. Through extensive ablations, we show that EC-DIT demonstrates superior scalability and adaptive compute allocation by recognizing varying textual importance through end-to-end training. Notably, in text-to-image alignment evaluation, our largest models achieve a state-of-the-art GenEval score of 71.68% and still maintain competitive inference speed with intuitive interpretability.
arxiv情報
著者 | Haotian Sun,Tao Lei,Bowen Zhang,Yanghao Li,Haoshuo Huang,Ruoming Pang,Bo Dai,Nan Du |
発行日 | 2025-02-19 17:22:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google