The Unreasonable Effectiveness of Guidance for Diffusion Models

要約

ガイダンスは、拡散モデルによって生成された画像の知覚品質を向上させるために使用されるエラー修正技術です。
通常、補正は、一次モデルよりもパフォーマンスが低い補助拡散モデルを使用した線形外挿によって実現されます。
2D おもちゃの例を使用して、補助モデルが主モデルと同様のエラーを示すが、より強力である場合、これが非常に有益であることを示します。
我々はこの発見をより高い次元で検証し、補助モデルがより強力な重み正則化を持つことによってのみ主モデルと異なる場合に、最先端のガイダンス手法に匹敵する生成パフォーマンスを達成できることを示します。
独立した貢献として、長距離の空間依存性を重み付けすることで視覚的な忠実度が向上するかどうかを調査します。
その結果、スライディング ウィンドウ ガイダンス (SWG) と呼ばれる新しいガイダンス方法が誕生しました。この方法は、受容野を制限することで一次モデルをそれ自体でガイドします。
興味深いことに、SWG は、トレーニング、アーキテクチャの変更、クラスの調整を必要とせず、最先端のガイダンス方法よりも人間の好みによく適合します。
コードが公開されます。

要約(オリジナル)

Guidance is an error-correcting technique used to improve the perceptual quality of images generated by diffusion models. Typically, the correction is achieved by linear extrapolation, using an auxiliary diffusion model that has lower performance than the primary model. Using a 2D toy example, we show that it is highly beneficial when the auxiliary model exhibits similar errors as the primary one but stronger. We verify this finding in higher dimensions, where we show that competitive generative performance to state-of-the-art guidance methods can be achieved when the auxiliary model differs from the primary one only by having stronger weight regularization. As an independent contribution, we investigate whether upweighting long-range spatial dependencies improves visual fidelity. The result is a novel guidance method, which we call sliding window guidance (SWG), that guides the primary model with itself by constraining its receptive field. Intriguingly, SWG aligns better with human preferences than state-of-the-art guidance methods while requiring neither training, architectural modifications, nor class conditioning. The code will be released.

arxiv情報

著者 Tim Kaiser,Nikolas Adaloglou,Markus Kollmann
発行日 2024-11-15 15:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク