Style-Editor: Text-driven object-centric style editing

要約

テキスト入力を使用してオブジェクト中心のレベルでスタイル編集をガイドする新しい方法である、スタイルエディターという名前のテキスト駆動型オブジェクト中心スタイルの編集モデルを提示します。
Style-Editorのコアは、パッチごとの共方向(PCD)損失であり、入力テキストと密接に整合する正確なオブジェクト中心の編集用に細心の注意を払って設計されています。
この損失は、テキスト誘導スタイルの方向のパッチの方向性損失と、オブジェクト領域全体に分布を埋め込むためのパッチ分布の一貫性の損失を組み合わせます。
オブジェクト領域全体でシームレスで調和のとれたスタイルの編集を保証します。
この方法の鍵は、テキストを介してオブジェクトの位置を識別するためのテキストマッチングパッチ選択(TMP)と事前固定された領域選択(PRS)モジュールであり、セグメンテーションマスクの必要性を排除します。
最後に、画像の背景の元のスタイルと構造的本質を維持するために、適応的な背景保存(ABP)損失を導入します。
この損失は、動的に識別された背景領域に適用されます。
広範な実験は、視覚的に一貫性のあるテキストに整合したスタイルの編集を作成する際のアプローチの有効性を強調しています。

要約(オリジナル)

We present Text-driven object-centric style editing model named Style-Editor, a novel method that guides style editing at an object-centric level using textual inputs. The core of Style-Editor is our Patch-wise Co-Directional (PCD) loss, meticulously designed for precise object-centric editing that are closely aligned with the input text. This loss combines a patch directional loss for text-guided style direction and a patch distribution consistency loss for even CLIP embedding distribution across object regions. It ensures a seamless and harmonious style editing across object regions. Key to our method are the Text-Matched Patch Selection (TMPS) and Pre-fixed Region Selection (PRS) modules for identifying object locations via text, eliminating the need for segmentation masks. Lastly, we introduce an Adaptive Background Preservation (ABP) loss to maintain the original style and structural essence of the image’s background. This loss is applied to dynamically identified background areas. Extensive experiments underline the effectiveness of our approach in creating visually coherent and textually aligned style editing.

arxiv情報

著者 Jihun Park,Jongmin Gim,Kyoungmin Lee,Seunghun Lee,Sunghoon Im
発行日 2025-04-08 13:28:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク