Dynamic Diffusion Transformer

要約

画像生成のための新しい拡散モデルであるDiffusion Transformer(DiT)は、優れた性能を実証しているが、かなりの計算コストに悩まされている。我々の調査により、これらのコストは静的推論パラダイムに起因しており、特定の拡散タイムステップと空間領域において必然的に冗長な計算を導入していることが明らかになった。この非効率性を解決するために、我々はDynamic Diffusion Transformer(DyDiT)を提案する。DyDiTは、生成中にタイムステップと空間次元の両方で計算を動的に調整するアーキテクチャである。具体的には、タイムステップワイズ動的幅(Timestep-wise Dynamic Width: TDW)アプローチを導入し、生成のタイムステップを条件としてモデルの幅を適応させる。さらに、不要な空間位置での冗長な計算を避けるために、空間ごとの動的トークン(Spatial-wise Dynamic Token: SDT)戦略を設計する。様々なデータセットと異なるサイズのモデルを用いた広範な実験により、DyDiTの優位性を検証する。特に、<3%の微調整反復を追加することで、我々の手法はDiT-XLのFLOPsを51%削減し、生成を1.73倍高速化し、ImageNetにおいて2.07の競争力のあるFIDスコアを達成した。コードは https://github.com/NUS-HPC-AI-Lab/ Dynamic-Diffusion-Transformerで公開されている。

要約(オリジナル)

Diffusion Transformer (DiT), an emerging diffusion model for image generation, has demonstrated superior performance but suffers from substantial computational costs. Our investigations reveal that these costs stem from the static inference paradigm, which inevitably introduces redundant computation in certain diffusion timesteps and spatial regions. To address this inefficiency, we propose Dynamic Diffusion Transformer (DyDiT), an architecture that dynamically adjusts its computation along both timestep and spatial dimensions during generation. Specifically, we introduce a Timestep-wise Dynamic Width (TDW) approach that adapts model width conditioned on the generation timesteps. In addition, we design a Spatial-wise Dynamic Token (SDT) strategy to avoid redundant computation at unnecessary spatial locations. Extensive experiments on various datasets and different-sized models verify the superiority of DyDiT. Notably, with <3% additional fine-tuning iterations, our method reduces the FLOPs of DiT-XL by 51%, accelerates generation by 1.73, and achieves a competitive FID score of 2.07 on ImageNet. The code is publicly available at https://github.com/NUS-HPC-AI-Lab/ Dynamic-Diffusion-Transformer.

arxiv情報

著者 Wangbo Zhao,Yizeng Han,Jiasheng Tang,Kai Wang,Yibing Song,Gao Huang,Fan Wang,Yang You
発行日 2024-10-04 14:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク