要約
拡散ベースの画像生成モデルは、高品質の合成含有量の生成に優れていますが、ゆっくりと計算上の高価な推論に悩まされています。
以前の作業は、推論ステップ全体に拡散トランス内の機能をキャッシュして再利用することにより、これを軽減しようとしました。
ただし、これらの方法は、多くの場合、制限された加速またはアーキテクチャ全体の一般化が不十分な剛性ヒューリスティックに依存しています。
拡散モデル(ECAD)を加速するための進化的キャッシングを提案します。これは、効率的でモデルごとのキャッシュスケジュールを学習し、パレートフロンティアを形成し、小さなキャリブレーションプロンプトのみを使用してパレートフロンティアを形成します。
ECADは、ネットワークパラメーターまたは参照画像を変更する必要はありません。
重要な推論のスピードアップを提供し、品質遅延のトレードオフをきめ細かく制御することができ、異なる拡散モデルにシームレスに適応します。
特に、ECADの学習スケジュールは、キャリブレーション中に見られない解像度やモデルバリアントに効果的に一般化できます。
多様なベンチマーク全体で複数のメトリック(FID、クリップ、画像報酬)を使用して、Pixart-Alpha、Pixart-Sigma、およびFlux-1.evのECADを評価し、以前のアプローチよりも一貫した改善を示します。
Pixart-Alphaでは、ECADは、前の最先端の方法を4.47 Coco FIDよりも優れているスケジュールを特定し、推論の速度を2.35倍から2.58倍に増やします。
我々の結果は、拡散推論を加速するためのスケーラブルで一般化可能なアプローチとしてECADを確立します。
当社のプロジェクトWebサイトはhttps://aniaggarwal.github.io/ecadで入手でき、当社のコードはhttps://github.com/aniaggarwal/ecadで入手できます。
要約(オリジナル)
Diffusion-based image generation models excel at producing high-quality synthetic content, but suffer from slow and computationally expensive inference. Prior work has attempted to mitigate this by caching and reusing features within diffusion transformers across inference steps. These methods, however, often rely on rigid heuristics that result in limited acceleration or poor generalization across architectures. We propose Evolutionary Caching to Accelerate Diffusion models (ECAD), a genetic algorithm that learns efficient, per-model, caching schedules forming a Pareto frontier, using only a small set of calibration prompts. ECAD requires no modifications to network parameters or reference images. It offers significant inference speedups, enables fine-grained control over the quality-latency trade-off, and adapts seamlessly to different diffusion models. Notably, ECAD’s learned schedules can generalize effectively to resolutions and model variants not seen during calibration. We evaluate ECAD on PixArt-alpha, PixArt-Sigma, and FLUX-1.dev using multiple metrics (FID, CLIP, Image Reward) across diverse benchmarks (COCO, MJHQ-30k, PartiPrompts), demonstrating consistent improvements over previous approaches. On PixArt-alpha, ECAD identifies a schedule that outperforms the previous state-of-the-art method by 4.47 COCO FID while increasing inference speedup from 2.35x to 2.58x. Our results establish ECAD as a scalable and generalizable approach for accelerating diffusion inference. Our project website is available at https://aniaggarwal.github.io/ecad and our code is available at https://github.com/aniaggarwal/ecad.
arxiv情報
著者 | Anirud Aggarwal,Abhinav Shrivastava,Matthew Gwilliam |
発行日 | 2025-06-18 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google