Prompt-to-Prompt Image Editing with Cross Attention Control

要約

最近の大規模なテキスト駆動型合成モデルは、与えられたテキスト プロンプトに従う非常に多様な画像を生成する優れた機能のおかげで、多くの注目を集めています。
このようなテキストベースの合成方法は、口頭で意図を説明することに慣れている人間にとって特に魅力的です。
したがって、テキスト駆動型の画像合成をテキスト駆動型の画像編集に拡張することは当然のことです。
これらのジェネレーティブ モデルの場合、編集は困難です。編集技術の固有の特性は、元の画像の大部分を保持することですが、テキスト ベースのモデルでは、テキスト プロンプトを少し変更しただけでも、まったく異なる結果になることがよくあります。
最先端の方法では、ユーザーが編集をローカライズするために空間マスクを提供する必要があるため、マスクされた領域内の元の構造とコンテンツを無視することで、これを軽減します。
このホワイトペーパーでは、編集がテキストのみによって制御される、直感的なプロンプトからプロンプトへの編集フレームワークを追求します。
この目的のために、テキスト条件付けされたモデルを詳細に分析し、クロスアテンションレイヤーが、画像の空間レイアウトとプロンプト内の各単語との関係を制御するための鍵であることを観察します。
この観察に基づいて、テキストプロンプトのみを編集して画像合成を監視するいくつかのアプリケーションを紹介します。
これには、単語の置き換えによるローカライズ編集、仕様の追加によるグローバル編集、単語が画像にどの程度反映されるかを微妙に制御することも含まれます。
さまざまな画像とプロンプトで結果を提示し、編集されたプロンプトに対する高品質の合成と忠実度を示します。

要約(オリジナル)

Recent large-scale text-driven synthesis models have attracted much attention thanks to their remarkable capabilities of generating highly diverse images that follow given text prompts. Such text-based synthesis methods are particularly appealing to humans who are used to verbally describe their intent. Therefore, it is only natural to extend the text-driven image synthesis to text-driven image editing. Editing is challenging for these generative models, since an innate property of an editing technique is to preserve most of the original image, while in the text-based models, even a small modification of the text prompt often leads to a completely different outcome. State-of-the-art methods mitigate this by requiring the users to provide a spatial mask to localize the edit, hence, ignoring the original structure and content within the masked region. In this paper, we pursue an intuitive prompt-to-prompt editing framework, where the edits are controlled by text only. To this end, we analyze a text-conditioned model in depth and observe that the cross-attention layers are the key to controlling the relation between the spatial layout of the image to each word in the prompt. With this observation, we present several applications which monitor the image synthesis by editing the textual prompt only. This includes localized editing by replacing a word, global editing by adding a specification, and even delicately controlling the extent to which a word is reflected in the image. We present our results over diverse images and prompts, demonstrating high-quality synthesis and fidelity to the edited prompts.

arxiv情報

著者 Amir Hertz,Ron Mokady,Jay Tenenbaum,Kfir Aberman,Yael Pritch,Daniel Cohen-Or
発行日 2022-08-02 17:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.GR, cs.LG パーマリンク