Autoregressive Distillation of Diffusion Transformers

要約

トランスアーキテクチャを備えた拡散モデルは、高忠実度の画像と高解像度のスケーラビリティを生成する上で有望な能力を実証しています。
ただし、合成に必要な反復サンプリングプロセスは非常にリソース集約的です。
一連の作業は、確率の流れに対するソリューションを少数の学生モデルに蒸留することに焦点を当てています。
それにもかかわらず、既存の方法は、入力として最新の除去されたサンプルへの依存により制限されており、暴露バイアスの影響を受けやすくなります。
この制限に対処するために、将来のステップを予測するためにODEの歴史的軌跡を活用する新しいアプローチである自己回帰蒸留(ARD)を提案します。
ARDは2つの重要な利点を提供します。1)蓄積されたエラーの影響を受けにくい予測された履歴軌道を利用することにより、露出バイアスを軽減し、2)ODE軌道の以前の履歴をより効果的な粒子情報のソースとして活用します。
ARDは、軌道履歴からの各入力をマークするためにトークンごとの時間埋め込みを追加することにより、教師の変圧器アーキテクチャを修正し、トレーニングにブロックごとの因果注意マスクを使用します。
さらに、低い変圧器層にのみ履歴入力を組み込むことで、パフォーマンスと効率が向上します。
ImagenetおよびT2I合成に対するクラス条件の世代におけるARDの有効性を検証します。
私たちのモデルは、イメージェネット-256で1.1 \%の追加フロップのみを必要とする一方で、ベースラインメソッドと比較して5ドルの時間削減を$ FI​​D劣化を達成します。
さらに、ARDは、わずか4ステップでImagenet-256で1.84のFIDに到達し、教師と比較してFIDの最小限の低下で迅速な順守スコアで公開されている1024pテキストから画像への蒸留モデルを上回ります。
プロジェクトページ:https://github.com/alsdudrla10/ard。

要約(オリジナル)

Diffusion models with transformer architectures have demonstrated promising capabilities in generating high-fidelity images and scalability for high resolution. However, iterative sampling process required for synthesis is very resource-intensive. A line of work has focused on distilling solutions to probability flow ODEs into few-step student models. Nevertheless, existing methods have been limited by their reliance on the most recent denoised samples as input, rendering them susceptible to exposure bias. To address this limitation, we propose AutoRegressive Distillation (ARD), a novel approach that leverages the historical trajectory of the ODE to predict future steps. ARD offers two key benefits: 1) it mitigates exposure bias by utilizing a predicted historical trajectory that is less susceptible to accumulated errors, and 2) it leverages the previous history of the ODE trajectory as a more effective source of coarse-grained information. ARD modifies the teacher transformer architecture by adding token-wise time embedding to mark each input from the trajectory history and employs a block-wise causal attention mask for training. Furthermore, incorporating historical inputs only in lower transformer layers enhances performance and efficiency. We validate the effectiveness of ARD in a class-conditioned generation on ImageNet and T2I synthesis. Our model achieves a $5\times$ reduction in FID degradation compared to the baseline methods while requiring only 1.1\% extra FLOPs on ImageNet-256. Moreover, ARD reaches FID of 1.84 on ImageNet-256 in merely 4 steps and outperforms the publicly available 1024p text-to-image distilled models in prompt adherence score with a minimal drop in FID compared to the teacher. Project page: https://github.com/alsdudrla10/ARD.

arxiv情報

著者 Yeongmin Kim,Sotiris Anagnostidis,Yuming Du,Edgar Schönfeld,Jonas Kohler,Markos Georgopoulos,Albert Pumarola,Ali Thabet,Artsiom Sanakoyeu
発行日 2025-04-15 15:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク