MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing

要約

タイトル:MasaCtrl:調整不要の相互自己注意制御による一貫した画像合成および編集
要約:
-既存の手法は、大規模なテキストから画像の生成およびテキストに基づく画像の編集に成功しているが、一貫した生成および編集結果を生み出すのに苦労している。
-本論文は、マルチビュー合成が必要なオブジェクト/キャラクターの生成の失敗や、複雑な非剛体編集を行う際に、全体のテクスチャとアイデンティティを維持できない既存の編集手法の問題を解決する手法である。
-具体的には、MasaCtrlは、既存の拡散モデルの自己注意を相互自己注意に変換することで、元のソース画像から相関するローカルコンテンツとテクスチャを調べて一貫性を実現する方法を提案している。
-さらに、前景と背景のクエリ混乱を軽減するために、クロス注意マップから簡単に抽出できるマスクガイド相互自己注意戦略を提案しています。
-大規模な実験により、MasaCtrlは一貫した画像生成と複雑な非剛体実画像編集の両方において印象的な結果を生み出すことができるようになっている。

要約(オリジナル)

Despite the success in large-scale text-to-image generation and text-conditioned image editing, existing methods still struggle to produce consistent generation and editing results. For example, generation approaches usually fail to synthesize multiple images of the same objects/characters but with different views or poses. Meanwhile, existing editing methods either fail to achieve effective complex non-rigid editing while maintaining the overall textures and identity, or require time-consuming fine-tuning to capture the image-specific appearance. In this paper, we develop MasaCtrl, a tuning-free method to achieve consistent image generation and complex non-rigid image editing simultaneously. Specifically, MasaCtrl converts existing self-attention in diffusion models into mutual self-attention, so that it can query correlated local contents and textures from source images for consistency. To further alleviate the query confusion between foreground and background, we propose a mask-guided mutual self-attention strategy, where the mask can be easily extracted from the cross-attention maps. Extensive experiments show that the proposed MasaCtrl can produce impressive results in both consistent image generation and complex non-rigid real image editing.

arxiv情報

著者 Mingdeng Cao,Xintao Wang,Zhongang Qi,Ying Shan,Xiaohu Qie,Yinqiang Zheng
発行日 2023-04-17 17:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク