LiT: Delving into a Simplified Linear Diffusion Transformer for Image Generation

要約

一般的に使用される二次複雑さモジュールでは、線形アテンションは単純さと高い並列性の恩恵を受け、画像合成タスクに有望です。
ただし、線形注意のためのアーキテクチャ設計と学習戦略は、この分野ではまだ十分に研究されていません。
このペーパーでは、効率的な線形拡散変圧器のためのすぐに使用できるソリューションのスイートを提供します。
私たちの主な貢献には次のものが含まれます。 (1) 少数のヘッドを使用した単純化されたリニア アテンション。レイテンシの増加を伴うことなくパフォーマンスのフリーランチ効果を観察します。
(2) 完全に事前トレーニングされた拡散トランスフォーマーからの重み継承: 事前トレーニングされた拡散トランスフォーマーを使用して線形トランスフォーマーを初期化し、線形アテンションに関連するパラメーターを除くすべてのパラメーターをロードします。
(3) ハイブリッド知識蒸留の目的: 事前にトレーニングされた拡散トランスフォーマーを使用して、生徒の線形トランスフォーマーのトレーニングを支援し、予測ノイズだけでなく逆拡散プロセスの分散も監視します。
これらのガイドラインは、私たちが提案する Linear Diffusion Transformer (LiT) につながります。これは、ラップトップ上にオフラインで展開できる効率的なテキストから画像への Transformer です。
実験の結果、クラス条件付き 256*256 および 512*512 の ImageNet ベンチマーク LiT は、DiT と比較してトレーニング ステップを 80% および 77% 削減しながら、非常に競争力の高い FID を達成することが示されました。
LiT は、Mamba または Gated Linear Attendant に基づく手法にも匹敵します。
さらに、テキストから画像への生成の場合、LiT を使用すると、最大 1K 解像度のフォトリアリスティックな画像を迅速に合成できます。
プロジェクトページ: https://techmonsterwang.github.io/LiT/。

要約(オリジナル)

In commonly used sub-quadratic complexity modules, linear attention benefits from simplicity and high parallelism, making it promising for image synthesis tasks. However, the architectural design and learning strategy for linear attention remain underexplored in this field. In this paper, we offer a suite of ready-to-use solutions for efficient linear diffusion Transformers. Our core contributions include: (1) Simplified Linear Attention using few heads, observing the free-lunch effect of performance without latency increase. (2) Weight inheritance from a fully pre-trained diffusion Transformer: initializing linear Transformer using pre-trained diffusion Transformer and loading all parameters except for those related to linear attention. (3) Hybrid knowledge distillation objective: using a pre-trained diffusion Transformer to help the training of the student linear Transformer, supervising not only the predicted noise but also the variance of the reverse diffusion process. These guidelines lead to our proposed Linear Diffusion Transformer (LiT), an efficient text-to-image Transformer that can be deployed offline on a laptop. Experiments show that in class-conditional 256*256 and 512*512 ImageNet benchmark LiT achieves highly competitive FID while reducing training steps by 80% and 77% compared to DiT. LiT also rivals methods based on Mamba or Gated Linear Attention. Besides, for text-to-image generation, LiT allows for the rapid synthesis of up to 1K resolution photorealistic images. Project page: https://techmonsterwang.github.io/LiT/.

arxiv情報

著者 Jiahao Wang,Ning Kang,Lewei Yao,Mengzhao Chen,Chengyue Wu,Songyang Zhang,Shuchen Xue,Yong Liu,Taiqiang Wu,Xihui Liu,Kaipeng Zhang,Shifeng Zhang,Wenqi Shao,Zhenguo Li,Ping Luo
発行日 2025-01-22 16:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク