要約
テキストからイメージの生成の分野は、拡散モデルの導入により大きな進歩を遂げています。
それにもかかわらず、ほとんどの方法は計算集中的であるか、再構成が不十分であるため、実際の画像を編集するという課題は持続します。
このホワイトペーパーでは、Sage(画像編集のための自己関節ガイダンス)を紹介します。これは、画像編集のために事前に訓練された拡散モデルを活用する新しい手法です。
SageはDDIMアルゴリズムに基づいて構築され、拡散U-Netの自己関節層を利用した新しいガイダンスメカニズムを組み込んでいます。
このメカニズムは、逆DDIMプロセス中に生成された注意マップに基づいて再構成目標を計算し、入力画像全体を正確に再構築する必要なく、編集されていない領域の効率的な再構築を可能にします。
したがって、Sageは画像編集の重要な課題に直接対処します。
他の方法よりもSAGEの優位性は、定量的および定性的評価を通じて実証され、統計的に検証された包括的なユーザー調査によって確認されます。
さらに、Sageは10の定量分析のうち7つで最高のパフォーマンスの方法としてランク付けされ、残りの3つで2位と3位を確保します。
要約(オリジナル)
The field of text-to-image generation has undergone significant advancements with the introduction of diffusion models. Nevertheless, the challenge of editing real images persists, as most methods are either computationally intensive or produce poor reconstructions. This paper introduces SAGE (Self-Attention Guidance for image Editing) – a novel technique leveraging pre-trained diffusion models for image editing. SAGE builds upon the DDIM algorithm and incorporates a novel guidance mechanism utilizing the self-attention layers of the diffusion U-Net. This mechanism computes a reconstruction objective based on attention maps generated during the inverse DDIM process, enabling efficient reconstruction of unedited regions without the need to precisely reconstruct the entire input image. Thus, SAGE directly addresses the key challenges in image editing. The superiority of SAGE over other methods is demonstrated through quantitative and qualitative evaluations and confirmed by a statistically validated comprehensive user study, in which all 47 surveyed users preferred SAGE over competing methods. Additionally, SAGE ranks as the top-performing method in seven out of 10 quantitative analyses and secures second and third places in the remaining three.
arxiv情報
著者 | Guillermo Gomez-Trenado,Pablo Mesejo,Oscar Cordón,Stéphane Lathuilière |
発行日 | 2025-05-14 17:15:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google