KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image Action Editing

要約

テキスト条件付き画像編集は、最近登場した非常に実用的なタスクであり、その可能性は計り知れません。
ただし、並行メソッドのほとんどはアクション編集を実行できません。つまり、編集プロンプトのアクション セマンティクスに準拠した結果を生成できず、元の画像のコンテンツを保持できません。
アクション編集の問題を解決するために、満足のいく再構成パフォーマンスとアクション編集を実現できる手法である KV Inversion を提案します。これにより、1) 編集結果と対応するアクションが一致する、2) 編集されたオブジェクトが一致するという 2 つの大きな問題を解決できます。
元の実画像の質感とアイデンティティを保持します。
さらに、私たちの方法では、安定拡散モデル自体をトレーニングする必要がなく、時間のかかるトレーニングを実行するために大規模なデータセットをスキャンする必要もありません。

要約(オリジナル)

Text-conditioned image editing is a recently emerged and highly practical task, and its potential is immeasurable. However, most of the concurrent methods are unable to perform action editing, i.e. they can not produce results that conform to the action semantics of the editing prompt and preserve the content of the original image. To solve the problem of action editing, we propose KV Inversion, a method that can achieve satisfactory reconstruction performance and action editing, which can solve two major problems: 1) the edited result can match the corresponding action, and 2) the edited object can retain the texture and identity of the original real image. In addition, our method does not require training the Stable Diffusion model itself, nor does it require scanning a large-scale dataset to perform time-consuming training.

arxiv情報

著者 Jiancheng Huang,Yifan Liu,Jin Qin,Shifeng Chen
発行日 2023-09-28 17:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク