要約
テキスト誘導画像編集における最近の進歩は、微調整されたセマンティックコントロールのために自然言語プロンプトを活用することにより、顕著な成功を収めています。
ただし、特定の編集セマンティクスは、テキストの説明だけを使用して正確に指定することが困難です。
実用的な代替案には、ペアのソースターゲット例からセマンティクスの編集を学ぶことが含まれます。
既存の模範ベースの編集方法は、ペアリングされた例内の変更を説明するテキストプロンプトに依存しているか、暗黙のテキストベースの編集手順を学習しています。
この論文では、テキストガイダンスを使用せずに、限られた数の画像ペアまたは単一の画像ペアから複雑な編集セマンティクスを効果的に学習するように設計された新しい視覚編集方法であるPaileDitを紹介します。
ガイダンス方向の用語を介して、ペアの画像内のセマンティックバリエーションを明示的にモデル化するターゲットノイズ予測を提案します。
さらに、より効果的なセマンティック学習を促進するために、コンテンツを提供するノイズスケジュールを紹介します。
また、コンテンツからのセマンティックバリエーションの学習を解くように異なるロラを最適化することを提案します。
広範な定性的および定量的評価は、ペアディットが複雑なセマンティクスを正常に学習し、ベースラインの方法と比較してコンテンツの一貫性を大幅に改善することを示しています。
コードはhttps://github.com/xudonmao/paireditで入手できます。
要約(オリジナル)
Recent advancements in text-guided image editing have achieved notable success by leveraging natural language prompts for fine-grained semantic control. However, certain editing semantics are challenging to specify precisely using textual descriptions alone. A practical alternative involves learning editing semantics from paired source-target examples. Existing exemplar-based editing methods still rely on text prompts describing the change within paired examples or learning implicit text-based editing instructions. In this paper, we introduce PairEdit, a novel visual editing method designed to effectively learn complex editing semantics from a limited number of image pairs or even a single image pair, without using any textual guidance. We propose a target noise prediction that explicitly models semantic variations within paired images through a guidance direction term. Moreover, we introduce a content-preserving noise schedule to facilitate more effective semantic learning. We also propose optimizing distinct LoRAs to disentangle the learning of semantic variations from content. Extensive qualitative and quantitative evaluations demonstrate that PairEdit successfully learns intricate semantics while significantly improving content consistency compared to baseline methods. Code will be available at https://github.com/xudonmao/PairEdit.
arxiv情報
著者 | Haoguang Lu,Jiacheng Chen,Zhenguo Yang,Aurele Tohokantche Gnanha,Fu Lee Wang,Li Qing,Xudong Mao |
発行日 | 2025-06-09 17:57:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google