要約
拡散トランス (DiT) は、画像生成タスクにおいて堅牢な機能を発揮します。
ただし、マルチモーダル DiT (MM-DiT) 向けの正確なテキストガイド付き画像編集には、依然として大きな課題が残されています。
セマンティック編集にセルフ/クロスアテンション マップを利用できる UNet ベースの構造とは異なり、MM-DiT は本質的に明示的かつ一貫して組み込まれたテキスト ガイダンスのサポートを欠いているため、編集結果とテキストの間にセマンティックな不整合が生じます。
この研究では、MM-DiT 内のさまざまな画像セマンティクスに対するさまざまなアテンション ヘッドの感度を明らかにし、MM-DiT 内のさまざまなアテンション ヘッドにテキスト ガイダンスを適応的にルーティングすることでソース画像を編集する、トレーニング不要の画像編集フレームワークである HeadRouter を紹介します。
。
さらに、正確なセマンティック ガイダンスと正確な領域表現のためにテキスト/画像トークン表現を洗練するデュアル トークン洗練モジュールを紹介します。
複数のベンチマークの実験結果は、編集の忠実度と画質の点で HeadRouter のパフォーマンスを実証しています。
要約(オリジナル)
Diffusion Transformers (DiTs) have exhibited robust capabilities in image generation tasks. However, accurate text-guided image editing for multimodal DiTs (MM-DiTs) still poses a significant challenge. Unlike UNet-based structures that could utilize self/cross-attention maps for semantic editing, MM-DiTs inherently lack support for explicit and consistent incorporated text guidance, resulting in semantic misalignment between the edited results and texts. In this study, we disclose the sensitivity of different attention heads to different image semantics within MM-DiTs and introduce HeadRouter, a training-free image editing framework that edits the source image by adaptively routing the text guidance to different attention heads in MM-DiTs. Furthermore, we present a dual-token refinement module to refine text/image token representations for precise semantic guidance and accurate region expression. Experimental results on multiple benchmarks demonstrate HeadRouter’s performance in terms of editing fidelity and image quality.
arxiv情報
著者 | Yu Xu,Fan Tang,Juan Cao,Yuxin Zhang,Xiaoyu Kong,Jintao Li,Oliver Deussen,Tong-Yee Lee |
発行日 | 2024-11-22 16:08:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google