要約
大規模な事前トレーニングを備えた拡散モデルは、特に拡散トランスフォーマー (DiT) に代表される、ビジュアル コンテンツ生成の分野で大きな成功を収めています。
ただし、DiT モデルは、スケーラビリティと 2 次複雑さの効率という課題に直面しています。
この論文では、Gated Linear Attendee (GLA) Transformer のロング シーケンス モデリング機能を活用し、その適用可能性を拡散モデルに拡張することを目指しています。
DiT 設計に従っており、優れた効率と有効性を提供する、パラメータのオーバーヘッドを最小限に抑えたシンプルで導入可能なソリューションである拡散ゲート リニア アテンション トランスフォーマー (DiG) を紹介します。
DiG-S/2 は、DiT より優れたパフォーマンスに加えて、DiT-S/2 よりも $2.5\time$ 高いトレーニング速度を示し、$1792 \times$ の解像度で $75.7\%$ の GPU メモリを節約します。
さらに、さまざまな計算の複雑さにわたる DiG のスケーラビリティを分析します。
深さ/幅が増加したり、入力トークンが増加した DiG モデルは、一貫して FID の減少を示します。
さらに、DiG を他の二次時間拡散モデルと比較します。
同じモデル サイズの場合、DiG-XL/2 は、$1024$ の解像度で最近の Mamba ベースの拡散モデルより $4.2\倍$ 高速であり、2048 ドル未満の CUDA に最適化された FlashAttendant-2 を使用した DiT よりも $1.8\倍$ 高速です。
$解像度。
これらの結果はすべて、最新の普及モデルの中で優れた効率を示しています。
コードは https://github.com/hustvl/DiG で公開されています。
要約(オリジナル)
Diffusion models with large-scale pre-training have achieved significant success in the field of visual content generation, particularly exemplified by Diffusion Transformers (DiT). However, DiT models have faced challenges with scalability and quadratic complexity efficiency. In this paper, we aim to leverage the long sequence modeling capability of Gated Linear Attention (GLA) Transformers, expanding its applicability to diffusion models. We introduce Diffusion Gated Linear Attention Transformers (DiG), a simple, adoptable solution with minimal parameter overhead, following the DiT design, but offering superior efficiency and effectiveness. In addition to better performance than DiT, DiG-S/2 exhibits $2.5\times$ higher training speed than DiT-S/2 and saves $75.7\%$ GPU memory at a resolution of $1792 \times 1792$. Moreover, we analyze the scalability of DiG across a variety of computational complexity. DiG models, with increased depth/width or augmentation of input tokens, consistently exhibit decreasing FID. We further compare DiG with other subquadratic-time diffusion models. With the same model size, DiG-XL/2 is $4.2\times$ faster than the recent Mamba-based diffusion model at a $1024$ resolution, and is $1.8\times$ faster than DiT with CUDA-optimized FlashAttention-2 under the $2048$ resolution. All these results demonstrate its superior efficiency among the latest diffusion models. Code is released at https://github.com/hustvl/DiG.
arxiv情報
著者 | Lianghui Zhu,Zilong Huang,Bencheng Liao,Jun Hao Liew,Hanshu Yan,Jiashi Feng,Xinggang Wang |
発行日 | 2024-05-28 17:59:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google