AID: Attention Interpolation of Text-to-Image Diffusion

要約

条件拡散モデルは、様々な環境において未見の画像を作成し、画像補間を支援することができる。潜在空間での補間はよく研究されているが、テキストやポーズなどの特定の条件での補間はあまり理解されていない。条件の空間における線形補間のような単純なアプローチは、しばしば一貫性、滑らかさ、忠実さに欠ける画像になる。そのため、我々はAttention Interpolation via Diffusion (AID)と名付けた、トレーニング不要の新しい手法を紹介する。我々の主な貢献は、1)内側/外側に補間された注意層を提案すること、2)補間された注意を自己注意と融合させて忠実度を高めること、3)ベータ分布を選択に適用して滑らかさを高めること、などである。また、補間過程を条件依存の生成過程と見なす、拡散を介したプロンプト誘導型注意補間法(PAID)も紹介する。この方法は、より高い一貫性、滑らかさ、効率性を持つ新しい画像の生成を可能にし、補間の正確な経路を制御することができる。我々のアプローチは、概念的補間と空間的補間の有効性を実証している。コードとデモはhttps://github.com/QY-H00/attention-interpolation-diffusion。

要約(オリジナル)

Conditional diffusion models can create unseen images in various settings, aiding image interpolation. Interpolation in latent spaces is well-studied, but interpolation with specific conditions like text or poses is less understood. Simple approaches, such as linear interpolation in the space of conditions, often result in images that lack consistency, smoothness, and fidelity. To that end, we introduce a novel training-free technique named Attention Interpolation via Diffusion (AID). Our key contributions include 1) proposing an inner/outer interpolated attention layer; 2) fusing the interpolated attention with self-attention to boost fidelity; and 3) applying beta distribution to selection to increase smoothness. We also present a variant, Prompt-guided Attention Interpolation via Diffusion (PAID), that considers interpolation as a condition-dependent generative process. This method enables the creation of new images with greater consistency, smoothness, and efficiency, and offers control over the exact path of interpolation. Our approach demonstrates effectiveness for conceptual and spatial interpolation. Code and demo are available at https://github.com/QY-H00/attention-interpolation-diffusion.

arxiv情報

著者 Qiyuan He,Jinghao Wang,Ziwei Liu,Angela Yao
発行日 2024-10-04 17:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク