Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

要約

拡散変圧器(DITS)は、変圧器アーキテクチャの組み込みを通じて、画像生成の領域内で顕著なパフォーマンスを実現します。
従来、DITは、高解像度の画像を処理する際にかなりの計算コストに直面するシリアル等方性グローバル情報モデリング変圧器を積み重ねて構築されます。
潜在的な空間画像生成は、伝統的に想定されているように、グローバルな情報に強い依存を示さないことを経験的に分析します。
モデルのレイヤーのほとんどは、グローバル計算における冗長性を示しています。
さらに、従来の注意メカニズムは、低周波慣性の問題を示します。
これらの問題に対処するために、\ textbf {p} seudo \ textbf {s} hifted \ textbf {w} indow \ textbf {a} ttention(PSWA)を提案します。
PSWAは、ウィンドウの注意を通じて中間のグローバルローカル情報相互作用を達成し、高周波ブリッジングブランチを使用してシフトされたウィンドウ操作をシミュレートし、適切なグローバルおよび高周波情報を補完します。
さらに、追加の計算コストなしで高次の注意の類似性をキャプチャするプログレッシブカバレッジチャネル割り当て(PCCA)戦略を提案します。
それらのすべてに基づいて、一連のpseudo \ textbf {s} hifted \ textbf {win} dow dits(\ textbf {swin dit})を提案します。
たとえば、提案されているSWIN-DIT-Lは、DIT-XL/2よりも54%$ \ uparrow $ fidの改善を達成しますが、計算は必要ありません。
https://github.com/wujiafu007/swin-dit

要約(オリジナル)

Diffusion Transformers (DiTs) achieve remarkable performance within the domain of image generation through the incorporation of the transformer architecture. Conventionally, DiTs are constructed by stacking serial isotropic global information modeling transformers, which face significant computational cost when processing high-resolution images. We empirically analyze that latent space image generation does not exhibit a strong dependence on global information as traditionally assumed. Most of the layers in the model demonstrate redundancy in global computation. In addition, conventional attention mechanisms exhibit low-frequency inertia issues. To address these issues, we propose \textbf{P}seudo \textbf{S}hifted \textbf{W}indow \textbf{A}ttention (PSWA), which fundamentally mitigates global model redundancy. PSWA achieves intermediate global-local information interaction through window attention, while employing a high-frequency bridging branch to simulate shifted window operations, supplementing appropriate global and high-frequency information. Furthermore, we propose the Progressive Coverage Channel Allocation(PCCA) strategy that captures high-order attention similarity without additional computational cost. Building upon all of them, we propose a series of Pseudo \textbf{S}hifted \textbf{Win}dow DiTs (\textbf{Swin DiT}), accompanied by extensive experiments demonstrating their superior performance. For example, our proposed Swin-DiT-L achieves a 54%$\uparrow$ FID improvement over DiT-XL/2 while requiring less computational. https://github.com/wujiafu007/Swin-DiT

arxiv情報

著者 Jiafu Wu,Yabiao Wang,Jian Li,Jinlong Peng,Yun Cao,Chengjie Wang,Jiangning Zhang
発行日 2025-05-20 03:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク