AID: Attention Interpolation of Text-to-Image Diffusion

要約

条件付き拡散モデルは、さまざまな設定で目に見えない画像を作成し、画像補間を支援します。
潜在空間での補間はよく研究されていますが、テキストやポーズなどの特定の条件での補間についてはあまり理解されていません。
条件空間での線形補間などの単純なアプローチでは、一貫性、滑らかさ、忠実性に欠ける画像が生成されることがよくあります。
そのために、拡散による注意補間 (AID) と呼ばれる、トレーニング不要の新しい手法を導入します。
私たちの主な貢献には、1) 内部/外部補間アテンション レイヤーの提案、2) が含まれます。
2) 忠実度を高めるために、補間された注意と自己の注意を融合する。
3) 滑らかさを高めるために選択にベータ分布を適用します。
また、補間を条件依存の生成プロセスとして考慮する、拡散によるプロンプトガイド付きアテンション補間 (PAID) というバリアントも提示します。
この方法により、より高い一貫性、滑らかさ、効率性を備えた新しい画像の作成が可能になり、補間の正確なパスを制御できるようになります。
私たちのアプローチは、概念的および空間的な補間の有効性を実証しています。
コードとデモは https://github.com/QY-H00/attention-interpolation-diffusion で入手できます。

要約(オリジナル)

Conditional diffusion models can create unseen images in various settings, aiding image interpolation. Interpolation in latent spaces is well-studied, but interpolation with specific conditions like text or poses is less understood. Simple approaches, such as linear interpolation in the space of conditions, often result in images that lack consistency, smoothness, and fidelity. To that end, we introduce a novel training-free technique named Attention Interpolation via Diffusion (AID). Our key contributions include 1) proposing an inner/outer interpolated attention layer; 2) fusing the interpolated attention with self-attention to boost fidelity; and 3) applying beta distribution to selection to increase smoothness. We also present a variant, Prompt-guided Attention Interpolation via Diffusion (PAID), that considers interpolation as a condition-dependent generative process. This method enables the creation of new images with greater consistency, smoothness, and efficiency, and offers control over the exact path of interpolation. Our approach demonstrates effectiveness for conceptual and spatial interpolation. Code and demo are available at https://github.com/QY-H00/attention-interpolation-diffusion.

arxiv情報

著者 Qiyuan He,Jinghao Wang,Ziwei Liu,Angela Yao
発行日 2024-03-26 17:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク