要約
拡散トランスは、さまざまなアプリケーションで優れたパフォーマンスと有効性を実証する、幅広い生成タスクの卓越したモデルとして登場しています。
有望な結果は、各除去ステップでは、大量のパラメーターでトランスモデル全体を実行する必要があるため、ゆっくりと推論の犠牲を払ってもたらされます。
このホワイトペーパーでは、前のステップの結果を怠lazに再利用することでいくつかの計算をスキップできるため、各拡散ステップでモデルの完全な計算を実行することは不要であることを示します。
さらに、連続したステップでの出力間の類似性の下限が特に高く、この類似性は入力を使用して直線的に近似できることを示します。
デモを検証するために、以前のステップからキャッシュされた結果を効率的に活用する怠zyな学習フレームワークである\ textbf {lazydit}を提案します。
具体的には、怠zyな学習レイヤーをモデルに組み込み、怠lazを最大化するために効果的に訓練され、冗長計算の動的なスキップを可能にします。
実験結果は、LazyDitがさまざまな解像度で複数の拡散トランスモデルでDDIMサンプラーを上回ることを示しています。
さらに、モバイルデバイスにメソッドを実装し、同様の遅延を持つDDIMよりも優れたパフォーマンスを実現します。
コード:https://github.com/shawnricecake/lazydit
要約(オリジナル)
Diffusion Transformers have emerged as the preeminent models for a wide array of generative tasks, demonstrating superior performance and efficacy across various applications. The promising results come at the cost of slow inference, as each denoising step requires running the whole transformer model with a large amount of parameters. In this paper, we show that performing the full computation of the model at each diffusion step is unnecessary, as some computations can be skipped by lazily reusing the results of previous steps. Furthermore, we show that the lower bound of similarity between outputs at consecutive steps is notably high, and this similarity can be linearly approximated using the inputs. To verify our demonstrations, we propose the \textbf{LazyDiT}, a lazy learning framework that efficiently leverages cached results from earlier steps to skip redundant computations. Specifically, we incorporate lazy learning layers into the model, effectively trained to maximize laziness, enabling dynamic skipping of redundant computations. Experimental results show that LazyDiT outperforms the DDIM sampler across multiple diffusion transformer models at various resolutions. Furthermore, we implement our method on mobile devices, achieving better performance than DDIM with similar latency. Code: https://github.com/shawnricecake/lazydit
arxiv情報
著者 | Xuan Shen,Zhao Song,Yufa Zhou,Bo Chen,Yanyu Li,Yifan Gong,Kai Zhang,Hao Tan,Jason Kuen,Henghui Ding,Zhihao Shu,Wei Niu,Pu Zhao,Yanzhi Wang,Jiuxiang Gu |
発行日 | 2025-03-21 15:52:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google