Exploring Diffusion Transformer Designs via Grafting

要約

モデルアーキテクチャの設計には、オペレーター(注意、畳み込みなど)や構成(深さ、幅など)の選択などの決定が必要です。
ただし、これらの決定がモデルの品質に与える影響を評価するには、費用のかかる事前トレーニングが必要であり、建築調査が制限されます。
既存のコードに新しいソフトウェアがどのように構築されているかに触発されて、私たちは次のように尋ねます:新しいアーキテクチャデザインは、前処理されたモデルを使用して研究することができますか?
この目的のために、先生的な拡散変圧器(DIT)を編集するための簡単なアプローチであるグラフトを提示して、小さな計算予算の下で新しいアーキテクチャを実現します。
活性化行動と注意の局所性の分析によって通知され、モデルの品質に対する移植の影響を研究するために、DIT-XL/2設計に基づいてテストベッドを構築します。
このテストベッドを使用して、移植を介してハイブリッドデザインのファミリーを開発します。ソフトマックスの注意をゲートの畳み込みに置き換え、局所的な注意と線形注意を払い、MLPを可変膨張比と畳み込みバリアントに置き換えます。
特に、多くのハイブリッドデザインは、2%未満の前削減計算を使用して、良質(FID:2.38-2.64対DIT-XL/2で2.27)を達成します。
次に、テキスト間モデル(PIXART-SIGMA)を接ぎ木し、Genevalスコアが2%未満の1.43倍のスピードアップを達成します。
最後に、グラフトを介してシーケンシャル変圧器ブロックのすべてのペアを平行ブロックに変換することにより、DIT-XL/2を再構築するケーススタディを提示します。
これにより、モデルの深さが2倍減少し、同等の深さの他のモデルよりも優れた品質(FID:2.77)が得られます。
一緒に、オペレーターの交換からアーキテクチャの再編に至るまで、新しい拡散モデルの設計が前提条件のDITを移植することで調査できることを示します。
コードと接ぎ木モデル:https://grafting.stanford.edu

要約(オリジナル)

Designing model architectures requires decisions such as selecting operators (e.g., attention, convolution) and configurations (e.g., depth, width). However, evaluating the impact of these decisions on model quality requires costly pretraining, limiting architectural investigation. Inspired by how new software is built on existing code, we ask: can new architecture designs be studied using pretrained models? To this end, we present grafting, a simple approach for editing pretrained diffusion transformers (DiTs) to materialize new architectures under small compute budgets. Informed by our analysis of activation behavior and attention locality, we construct a testbed based on the DiT-XL/2 design to study the impact of grafting on model quality. Using this testbed, we develop a family of hybrid designs via grafting: replacing softmax attention with gated convolution, local attention, and linear attention, and replacing MLPs with variable expansion ratio and convolutional variants. Notably, many hybrid designs achieve good quality (FID: 2.38-2.64 vs. 2.27 for DiT-XL/2) using <2% pretraining compute. We then graft a text-to-image model (PixArt-Sigma), achieving a 1.43x speedup with less than a 2% drop in GenEval score. Finally, we present a case study that restructures DiT-XL/2 by converting every pair of sequential transformer blocks into parallel blocks via grafting. This reduces model depth by 2x and yields better quality (FID: 2.77) than other models of comparable depth. Together, we show that new diffusion model designs can be explored by grafting pretrained DiTs, with edits ranging from operator replacement to architecture restructuring. Code and grafted models: https://grafting.stanford.edu

arxiv情報

著者 Keshigeyan Chandrasegaran,Michael Poli,Daniel Y. Fu,Dongjun Kim,Lea M. Hadzic,Manling Li,Agrim Gupta,Stefano Massaroli,Azalia Mirhoseini,Juan Carlos Niebles,Stefano Ermon,Li Fei-Fei
発行日 2025-06-06 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク