要約
画像生成のデファクトスタンダードモデルである生成敵対ネットワーク(GAN)に続き、ノイズ除去拡散モデル(DDM)が活発に研究され、高品質で多様性のある画像を生成できることから、強い注目を集めている。しかし、DDMのUNet内部での自己アテンション機構の働きは未解明である。本論文では、それらを明らかにするために、まず、ブラックボックス化された拡散モデル内の自己注意の動作を調べ、仮説を構築する。次に、頻度解析と生成されたオブジェクトとの関係性を検証することで、自己注意マップに関する仮説を検証する。その結果、注意マップは生成画像の質と密接に関連していることがわかった。一方、生成画像の品質を向上させるために、ラベルなどの付加情報に基づく拡散誘導手法が提案されている。これらの手法に触発され、既存の事前学習済み拡散モデルをより忠実な画像生成に導くことができる、中間自己アテンションマップに基づくラベルフリーガイダンスを提案する。単独で用いた場合のサンプル品質の向上に加え、ImageNet 128×128において、本手法と分類器ガイダンスを組み合わせることで、さらに結果が向上することを示す。
要約(オリジナル)
Following generative adversarial networks (GANs), a de facto standard model for image generation, denoising diffusion models (DDMs) have been actively researched and attracted strong attention due to their capability to generate images with high quality and diversity. However, the way the internal self-attention mechanism works inside the UNet of DDMs is under-explored. To unveil them, in this paper, we first investigate the self-attention operations within the black-boxed diffusion models and build hypotheses. Next, we verify the hypotheses about the self-attention map by conducting frequency analysis and testing the relationships with the generated objects. In consequence, we find out that the attention map is closely related to the quality of generated images. On the other hand, diffusion guidance methods based on additional information such as labels are proposed to improve the quality of generated images. Inspired by these methods, we present label-free guidance based on the intermediate self-attention map that can guide existing pretrained diffusion models to generate images with higher fidelity. In addition to the enhanced sample quality when used alone, we show that the results are further improved by combining our method with classifier guidance on ImageNet 128×128.
arxiv情報
著者 | Susung Hong,Gyuseong Lee,Wooseok Jang,Seungryong Kim |
発行日 | 2022-10-04 17:03:37+00:00 |
arxivサイト | arxiv_id(pdf) |