Diffusion Sampling Correction via Approximately 10 Parameters

要約

拡散確率モデル (DPM) は生成タスクにおいて優れたパフォーマンスを示していますが、これにはサンプリング効率が犠牲になります。
品質を犠牲にすることなくサンプリング速度を向上させるために、最近、さまざまな蒸留ベースの加速サンプリング アルゴリズムが提案されています。
ただし、通常、追加のトレーニング コストとモデル パラメーターの保存が必要となり、実際の応用が制限されます。
この研究では、最小限の学習可能なパラメーターとトレーニング コストで DPM 用の既存のソルバーを最適化する PCA ベースの適応検索 (PAS) を提案します。
具体的には、最初に PCA を使用して、高次元サンプリング空間にわたるいくつかの直交単位基底ベクトルを取得します。これにより、サンプリング方向を修正するための座標セットだけを学習できるようになります。
さらに、累積的な打ち切り誤差が「S」字型を示すという観察に基づいて、サンプリング効率をさらに高め、保存されるパラメータの数を約 10 に減らす適応探索戦略を設計します。広範な実験により、PAS ができることが実証されました。
プラグアンドプレイ方式で、無視できるコストで既存の高速ソルバーを大幅に強化します。
たとえば、CIFAR10 では、PAS に必要なパラメータは 12 個のみで、単一の NVIDIA A100 GPU で 1 分未満のトレーニングを行うだけで、DDIM を 15.69 FID (NFE=10) から 4.37 に最適化できます。

要約(オリジナル)

Diffusion Probabilistic Models (DPMs) have demonstrated exceptional performance in generative tasks, but this comes at the expense of sampling efficiency. To enhance sampling speed without sacrificing quality, various distillation-based accelerated sampling algorithms have been recently proposed. However, they typically require significant additional training costs and model parameter storage, which limit their practical application. In this work, we propose PCA-based Adaptive Search (PAS), which optimizes existing solvers for DPMs with minimal learnable parameters and training costs. Specifically, we first employ PCA to obtain a few orthogonal unit basis vectors to span the high-dimensional sampling space, which enables us to learn just a set of coordinates to correct the sampling direction; furthermore, based on the observation that the cumulative truncation error exhibits an “S”-shape, we design an adaptive search strategy that further enhances the sampling efficiency and reduces the number of stored parameters to approximately 10. Extensive experiments demonstrate that PAS can significantly enhance existing fast solvers in a plug-and-play manner with negligible costs. For instance, on CIFAR10, PAS requires only 12 parameters and less than 1 minute of training on a single NVIDIA A100 GPU to optimize the DDIM from 15.69 FID (NFE=10) to 4.37.

arxiv情報

著者 Guangyi Wang,Wei Peng,Lijiang Li,Wenyu Chen,Yuren Cai,Songzhi Su
発行日 2024-11-14 16:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク