要約
拡散モデルは画像編集作業に広く用いられている。既存の編集手法は、多くの場合、テキスト埋め込み空間やスコア空間における編集方向をキュレーションすることで、表現操作手順を設計する。しかし、このような手順は、編集強度を過大評価すると視覚的一貫性が損なわれ、過小評価すると編集タスクが失敗するという重要な課題に直面する。特に、各ソース画像は異なる編集強度を必要とする可能性があり、試行錯誤によって適切な強度を探索するのはコストがかかる。この課題に対処するため、我々は拡散ベースの画像編集における原理的な表現操作のためのゼロショットプラグアンドプレイフレームワークであるConcept Lancet (CoLan)を提案する。推論時に、我々は潜在(テキスト埋め込みまたは拡散スコア)空間におけるソース入力を、収集された視覚概念の表現の疎な線形結合として分解する。これにより、各画像における概念の存在を正確に推定することができ、これが編集に反映される。編集タスク(置換/追加/削除)に基づき、カスタマイズされた概念移植処理を行い、対応する編集方向を課す。概念空間を十分にモデル化するために、我々は概念表現データセットCoLan-150Kを作成する。複数の拡散ベースの画像編集ベースラインに対する実験から、CoLanを搭載した手法は、編集の有効性と一貫性の保持において最先端の性能を達成することが示される。
要約(オリジナル)
Diffusion models are widely used for image editing tasks. Existing editing methods often design a representation manipulation procedure by curating an edit direction in the text embedding or score space. However, such a procedure faces a key challenge: overestimating the edit strength harms visual consistency while underestimating it fails the editing task. Notably, each source image may require a different editing strength, and it is costly to search for an appropriate strength via trial-and-error. To address this challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play framework for principled representation manipulation in diffusion-based image editing. At inference time, we decompose the source input in the latent (text embedding or diffusion score) space as a sparse linear combination of the representations of the collected visual concepts. This allows us to accurately estimate the presence of concepts in each image, which informs the edit. Based on the editing task (replace/add/remove), we perform a customized concept transplant process to impose the corresponding editing direction. To sufficiently model the concept space, we curate a conceptual representation dataset, CoLan-150K, which contains diverse descriptions and scenarios of visual terms and phrases for the latent dictionary. Experiments on multiple diffusion-based image editing baselines show that methods equipped with CoLan achieve state-of-the-art performance in editing effectiveness and consistency preservation.
arxiv情報
著者 | Jinqi Luo,Tianjiao Ding,Kwan Ho Ryan Chan,Hancheng Min,Chris Callison-Burch,René Vidal |
発行日 | 2025-04-03 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |