Doubly Abductive Counterfactual Inference for Text-based Image Editing

要約

私たちは、反事実推論による単一画像のテキストベース画像編集 (TBIE) を研究します。これは、編集された画像が元の画像の忠実性を保持する必要があるという要件に正確に対処する洗練された定式化であるためです。
定式化のレンズを通して、TBIE の核心は、主に単一画像の微調整のオーバーフィッティングが原因で、既存の技術では編集可能性と忠実性の間の良好なトレードオフをほとんど達成できないことであることがわかります。
この目的を達成するために、二重アブダクティブ反事実推論フレームワーク (DAC) を提案します。
まず、外生変数を UNet LoRA としてパラメータ化し、そのアブダクションによりすべての画像の詳細をエンコードできます。
次に、テキスト エンコーダ LoRA によってパラメータ化された別の外生変数をアブダクトします。これにより、最初のアブダクションの過剰適合によって失われた編集可能性が回復されます。
編集後から編集前への視覚的な移行を排他的にエンコードする 2 番目のアブダクションのおかげで、その反転 (LoRA を差し引く) により、効果的に編集前を編集後へ戻し、それによって編集が完了します。
広範な実験を通じて、当社の DAC は編集性と忠実性の間で適切なトレードオフを実現しました。
したがって、追加、削除、操作、置換、スタイル転送、顔の変更など、ユーザーの幅広い編集意図をサポートでき、これらは定性的評価と定量的評価の両方で広範囲に検証されています。
コードは https://github.com/xuesong39/DAC にあります。

要約(オリジナル)

We study text-based image editing (TBIE) of a single image by counterfactual inference because it is an elegant formulation to precisely address the requirement: the edited image should retain the fidelity of the original one. Through the lens of the formulation, we find that the crux of TBIE is that existing techniques hardly achieve a good trade-off between editability and fidelity, mainly due to the overfitting of the single-image fine-tuning. To this end, we propose a Doubly Abductive Counterfactual inference framework (DAC). We first parameterize an exogenous variable as a UNet LoRA, whose abduction can encode all the image details. Second, we abduct another exogenous variable parameterized by a text encoder LoRA, which recovers the lost editability caused by the overfitted first abduction. Thanks to the second abduction, which exclusively encodes the visual transition from post-edit to pre-edit, its inversion — subtracting the LoRA — effectively reverts pre-edit back to post-edit, thereby accomplishing the edit. Through extensive experiments, our DAC achieves a good trade-off between editability and fidelity. Thus, we can support a wide spectrum of user editing intents, including addition, removal, manipulation, replacement, style transfer, and facial change, which are extensively validated in both qualitative and quantitative evaluations. Codes are in https://github.com/xuesong39/DAC.

arxiv情報

著者 Xue Song,Jiequan Cui,Hanwang Zhang,Jingjing Chen,Richang Hong,Yu-Gang Jiang
発行日 2024-03-05 13:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク