Forgedit: Text Guided Image Editing via Learning and Forgetting

要約

画像とターゲットテキストプロンプトのみを入力として与えられた実際の画像に対するテキストガイド付き画像編集は、非常に一般的かつ困難な問題であり、画像の特徴を維持するために画像のどの部分を編集すべきかを編集モデルが独自に推論する必要があります。
オリジナル画像の編集や、複雑なノンリジッド編集も可能です。
以前の微調整ベースのソリューションは時間がかかり、過剰適合に対して脆弱であり、編集機能が制限されていました。
これらの問題に取り組むために、私たちは新しいテキストガイド付き画像編集方法 Forgedit を設計しました。
まず、視覚言語共同学習により、1分未満で与えられた画像を再構成することを学習する新しい微調整フレームワークを提案します。
次に、ベクトル減算とベクトル射影を導入して、編集に適したテキスト埋め込みを検討します。
また、拡散モデルにおける UNet 構造の一般的な特性も発見し、そのような発見に触発されて、致命的な過剰適合の問題を軽減し、拡散モデルの編集能力を大幅に高めるための忘却戦略を設計しました。
Stable Diffusion を使用して実装された私たちの手法 Forgedit は、挑戦的なテキストガイド付き画像編集ベンチマーク TEdBench で新しい最先端の結果を達成し、CLIP スコアと LPIPS スコアの両方の点で、Imagen を使用した以前の SOTA 手法 Imagic を上回りました。
コードは https://github.com/witcherofresearch/Forgedit で入手できます。

要約(オリジナル)

Text guided image editing on real images given only the image and the target text prompt as inputs, is a very general and challenging problem, which requires the editing model to reason by itself which part of the image should be edited, to preserve the characteristics of original image, and also to perform complicated non-rigid editing. Previous fine-tuning based solutions are time-consuming and vulnerable to overfitting, limiting their editing capabilities. To tackle these issues, we design a novel text guided image editing method, Forgedit. First, we propose a novel fine-tuning framework which learns to reconstruct the given image in less than one minute by vision language joint learning. Then we introduce vector subtraction and vector projection to explore the proper text embedding for editing. We also find a general property of UNet structures in Diffusion Models and inspired by such a finding, we design forgetting strategies to diminish the fatal overfitting issues and significantly boost the editing abilities of Diffusion Models. Our method, Forgedit, implemented with Stable Diffusion, achieves new state-of-the-art results on the challenging text guided image editing benchmark TEdBench, surpassing the previous SOTA method Imagic with Imagen, in terms of both CLIP score and LPIPS score. Codes are available at https://github.com/witcherofresearch/Forgedit.

arxiv情報

著者 Shiwen Zhang,Shuai Xiao,Weilin Huang
発行日 2023-09-19 12:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク