要約
ノイズ除去拡散モデル (DDM) は、そのかなりのサンプル品質と多様性のために多くの注目を集めています。
目覚ましい性能にもかかわらず、DDM はブラック ボックスのままであり、深遠な一歩を踏み出すにはさらなる研究が必要です。
これに動機付けられて、従来のU字型拡散モデルの設計を掘り下げます。
より具体的には、慎重に設計された実験を通じてこれらのモデル内の自己注意モジュールを調査し、その特性を探ります。
さらに、ガイダンス スキームの有効性を実証する研究に触発されて、既存の拡散モデルのパフォーマンスを大幅に向上させることができるプラグ アンド プレイ拡散ガイダンス、つまり Self-Attention Guidance (SAG) を提示します。
私たちの方法であるSAGは、反復ごとに拡散モデルから中間アテンションマップを抽出し、マスキングとぼかしのために特定のアテンションスコアを超えるトークンを選択して、部分的にぼやけた入力を取得します。
その後、ぼやけた入力と元の入力を拡散モデルに入力して得られた予測ノイズ間の相違を測定し、それをガイダンスとして活用します。
このガイダンスにより、ADM、IDDPM、Stable Diffusion などの幅広い拡散モデルで明らかな改善が観察され、従来のガイダンス スキームと組み合わせることで結果がさらに改善されることが示されます。
私たちは、私たちの選択を検証するために広範なアブレーション研究を提供します。
要約(オリジナル)
Denoising diffusion models (DDMs) have been drawing much attention for their appreciable sample quality and diversity. Despite their remarkable performance, DDMs remain black boxes on which further study is necessary to take a profound step. Motivated by this, we delve into the design of conventional U-shaped diffusion models. More specifically, we investigate the self-attention modules within these models through carefully designed experiments and explore their characteristics. In addition, inspired by the studies that substantiate the effectiveness of the guidance schemes, we present plug-and-play diffusion guidance, namely Self-Attention Guidance (SAG), that can drastically boost the performance of existing diffusion models. Our method, SAG, extracts the intermediate attention map from a diffusion model at every iteration and selects tokens above a certain attention score for masking and blurring to obtain a partially blurred input. Subsequently, we measure the dissimilarity between the predicted noises obtained from feeding the blurred and original input to the diffusion model and leverage it as guidance. With this guidance, we observe apparent improvements in a wide range of diffusion models, e.g., ADM, IDDPM, and Stable Diffusion, and show that the results further improve by combining our method with the conventional guidance scheme. We provide extensive ablation studies to verify our choices.
arxiv情報
著者 | Susung Hong,Gyuseong Lee,Wooseok Jang,Seungryong Kim |
発行日 | 2022-11-21 14:31:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google