Edit Transfer: Learning Image Editing via Vision In-Context Relations

要約

新しい設定を紹介し、転送を編集します。ここでは、モデルが単一のソースターゲットの例から変換を学習し、新しいクエリ画像に適用します。
テキストベースの方法は、テキストプロンプトを通じてセマンティック操作に優れていますが、多くの場合、正確な幾何学的な詳細(ポーズや視点の変更など)に苦労します。
一方、参照ベースの編集は、通常、スタイルや外観に焦点を当て、非剛性変換で失敗します。
ソースターゲットペアからの編集変換を明示的に学習することにより、編集転送は、テキストのみと外観中心の参照の両方の制限を軽減します。
大規模な言語モデルでのコンテキスト学習からインスピレーションを得て、DITベースのテキストからイメージモデルに基づいて、視覚的な関係学習パラダイムを提案します。
編集した例とクエリ画像を統一された4パネルの複合材に配置し、軽量のロラの微調整を適用して、最小限の例から複雑な空間変換をキャプチャします。
42のトレーニングサンプルのみを使用しているにもかかわらず、編集転送は、多様な非剛性シナリオの最先端のネクタイとRIEメソッドを大幅に上回り、少数の視覚関係学習の有効性を示しています。

要約(オリジナル)

We introduce a new setting, Edit Transfer, where a model learns a transformation from just a single source-target example and applies it to a new query image. While text-based methods excel at semantic manipulations through textual prompts, they often struggle with precise geometric details (e.g., poses and viewpoint changes). Reference-based editing, on the other hand, typically focuses on style or appearance and fails at non-rigid transformations. By explicitly learning the editing transformation from a source-target pair, Edit Transfer mitigates the limitations of both text-only and appearance-centric references. Drawing inspiration from in-context learning in large language models, we propose a visual relation in-context learning paradigm, building upon a DiT-based text-to-image model. We arrange the edited example and the query image into a unified four-panel composite, then apply lightweight LoRA fine-tuning to capture complex spatial transformations from minimal examples. Despite using only 42 training samples, Edit Transfer substantially outperforms state-of-the-art TIE and RIE methods on diverse non-rigid scenarios, demonstrating the effectiveness of few-shot visual relation learning.

arxiv情報

著者 Lan Chen,Qi Mao,Yuchao Gu,Mike Zheng Shou
発行日 2025-03-17 16:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク