Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention


条件付き拡散モデルは、ビジュアルコンテンツ生成において顕著な成功を示しており、様々な領域において高品質なサンプルを生成している。無条件モデルにガイダンスを拡張する最近の試みは、発見的手法に依存しており、その結果、生成品質が最適化されず、意図しない効果が生じている。本研究では、画像生成を向上させるために、自己注意メカニズムのエネルギーに基づく視点を活用する、訓練や条件に依存しない新しいアプローチであるSmoothed Energy Guidance (SEG)を提案する。自己注意のエネルギーを定義することで、注意のエネルギー景観の曲率を減少させ、その出力を無条件予測として利用する手法を導入する。実際には、ガイダンススケールパラメータを固定したまま、ガウシアンカーネルパラメータを調整することで、エネルギー景観の曲率を制御する。さらに、トークン数の2次関数的な複雑さを発生させることなく、注目重み全体をぼかすのと等価な、クエリぼかし法を提示する。我々の実験では、SEGは品質と副作用の低減の両方でパレート改善を達成した。


Conditional diffusion models have shown remarkable success in visual content generation, producing high-quality samples across various domains, largely due to classifier-free guidance (CFG). Recent attempts to extend guidance to unconditional models have relied on heuristic techniques, resulting in suboptimal generation quality and unintended effects. In this work, we propose Smoothed Energy Guidance (SEG), a novel training- and condition-free approach that leverages the energy-based perspective of the self-attention mechanism to enhance image generation. By defining the energy of self-attention, we introduce a method to reduce the curvature of the energy landscape of attention and use the output as the unconditional prediction. Practically, we control the curvature of the energy landscape by adjusting the Gaussian kernel parameter while keeping the guidance scale parameter fixed. Additionally, we present a query blurring method that is equivalent to blurring the entire attention weights without incurring quadratic complexity in the number of tokens. In our experiments, SEG achieves a Pareto improvement in both quality and the reduction of side effects. The code is available at \url{}.


著者 Susung Hong
発行日 2024-08-01
