KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image Action Editing


ただし、並行メソッドのほとんどはアクション編集を実行できません。つまり、編集プロンプトのアクション セマンティクスに準拠した結果を生成できず、元の画像のコンテンツを保持できません。
アクション編集の問題を解決するために、満足のいく再構成パフォーマンスとアクション編集を実現できる手法である KV Inversion を提案します。これにより、1) 編集結果と対応するアクションが一致する、2) 編集されたオブジェクトが一致するという 2 つの大きな問題を解決できます。


Text-conditioned image editing is a recently emerged and highly practical task, and its potential is immeasurable. However, most of the concurrent methods are unable to perform action editing, i.e. they can not produce results that conform to the action semantics of the editing prompt and preserve the content of the original image. To solve the problem of action editing, we propose KV Inversion, a method that can achieve satisfactory reconstruction performance and action editing, which can solve two major problems: 1) the edited result can match the corresponding action, and 2) the edited object can retain the texture and identity of the original real image. In addition, our method does not require training the Stable Diffusion model itself, nor does it require scanning a large-scale dataset to perform time-consuming training.


著者 Jiancheng Huang,Yifan Liu,Jin Qin,Shifeng Chen
発行日 2023-09-28 17:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク