要約
拡散トランス(DIT)は、コンテンツ生成に重要な方法です。
ただし、サンプリングするには多くの時間が必要です。
多くの研究では、キャッシングを使用してサンプリングの時間消費を削減しようとしました。
既存のキャッシュ方法は、前の時間ステップからDIT機能を再利用し、次の計算をスキップすることにより生成を加速しますが、キャッシュ誘導エラーの削減に焦点を合わせることなく低エラーモジュールを見つけてキャッシュする傾向があり、生成されたコンテンツ品質の急激な低下になります。
キャッシュ強度を上げるとき。
この問題を解決するために、エラーが最適化されたキャッシュ(EOC)を提案します。
この方法では、3つの重要な改善が導入されています。(1)事前知識抽出:キャッシュの違いを抽出して処理します。
(2)キャッシュ最適化の判断方法:特定のキャッシュステップを最適化する必要があるかどうかを判断します。
(3)キャッシュ最適化:キャッシングエラーを減らします。
実験は、このアルゴリズムがキャッシュによって引き起こされるエラーの蓄積を大幅に減らすことを示しています(特に過剰キャッシュ)。
Imagenetデータセットでは、計算負担を大幅に増加させることなく、この方法により、キャッシュ過剰、ルールベース、トレーニングベースの方法で生成された画像の品質が向上します。
具体的には、FR \ ‘Echetインセプション距離(FID)値は次のように改善されます。6.857から5.821、3.870から3.692、それぞれ3.539から3.451を形成します。
要約(オリジナル)
Diffusion Transformer (DiT) is a crucial method for content generation. However, it needs a lot of time to sample. Many studies have attempted to use caching to reduce the time consumption of sampling. Existing caching methods accelerate generation by reusing DiT features from the previous time step and skipping calculations in the next, but they tend to locate and cache low-error modules without focusing on reducing caching-induced errors, resulting in a sharp decline in generated content quality when increasing caching intensity. To solve this problem, we propose the Error-Optimized Cache (EOC). This method introduces three key improvements: (1) Prior knowledge extraction: Extract and process the caching differences; (2) A judgment method for cache optimization: Determine whether certain caching steps need to be optimized; (3) Cache optimization: reduce caching errors. Experiments show that this algorithm significantly reduces the error accumulation caused by caching (especially over-caching). On the ImageNet dataset, without significantly increasing the computational burden, this method improves the quality of the generated images under the over-caching, rule-based, and training-based methods. Specifically, the Fr\’echet Inception Distance (FID) values are improved as follows: from 6.857 to 5.821, from 3.870 to 3.692 and form 3.539 to 3.451 respectively.
arxiv情報
著者 | Junxiang Qiu,Shuo Wang,Jinda Lu,Lin Liu,Houcheng Jiang,Yanbin Hao |
発行日 | 2025-01-31 15:58:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google