Qihoo-T2X: An Efficient Proxy-Tokenized Diffusion Transformer for Text-to-Any-Task

要約

拡散変換器における大域的自己注意機構は、視覚情報が疎で冗長であるために冗長な計算を伴い、空間窓内のトークンの注意マップは大きな類似性を示す。この冗長性に対処するために、我々は、大域的な視覚情報を効率的にモデル化するために、疎な代表トークン注意(代表トークンの数がトークンの総数よりはるかに少ない)を採用するProxy-Tokenized Diffusion Transformer(PT-DiT)を提案する。具体的には、各変換ブロック内で、各空間-時間ウィンドウから平均化トークンを計算し、その領域の代理トークンとして機能させる。グローバルなセマンティクスは、これらの代理トークンの自己アテンションを通して捉えられ、クロスアテンションを通して全ての潜在トークンに注入される。同時に、疎な注意メカニズムに起因する詳細モデリングの限界に対処するために、ウィンドウ注意とシフトウィンドウ注意を導入する。よく設計されたPT-DiTを基礎として、我々はさらにQihoo-T2Xファミリーを開発し、T2I、T2V、T2MVタスクのための様々なモデルを含む。実験結果によると、PT-DiTは、画像生成タスクと動画生成タスクの両方において、計算量を削減しながら、競争力のある性能を達成しています(例えば、DiTと比較して49%削減、PixArt-$α$と比較して34%削減)。Qihoo-T2Xのビジュアル展示とソースコードは、https://360cvgroup.github.io/Qihoo-T2X/。

要約(オリジナル)

The global self-attention mechanism in diffusion transformers involves redundant computation due to the sparse and redundant nature of visual information, and the attention map of tokens within a spatial window shows significant similarity. To address this redundancy, we propose the Proxy-Tokenized Diffusion Transformer (PT-DiT), which employs sparse representative token attention (where the number of representative tokens is much smaller than the total number of tokens) to model global visual information efficiently. Specifically, within each transformer block, we compute an averaging token from each spatial-temporal window to serve as a proxy token for that region. The global semantics are captured through the self-attention of these proxy tokens and then injected into all latent tokens via cross-attention. Simultaneously, we introduce window and shift window attention to address the limitations in detail modeling caused by the sparse attention mechanism. Building on the well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a variety of models for T2I, T2V, and T2MV tasks. Experimental results show that PT-DiT achieves competitive performance while reducing the computational complexity in both image and video generation tasks (e.g., a 49% reduction compared to DiT and a 34% reduction compared to PixArt-$\alpha$). The visual exhibition and source code of Qihoo-T2X is available at https://360cvgroup.github.io/Qihoo-T2X/.

arxiv情報

著者 Jing Wang,Ao Ma,Jiasong Feng,Dawei Leng,Yuhui Yin,Xiaodan Liang
発行日 2024-10-04 13:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク