ColorEdit: Training-free Image-Guided Color editing with diffusion model

要約

Text-to-image (T2I) 拡散モデルは、優れた生成機能を備えており、画像編集タスクに採用され、顕著な有効性を示しています。
ただし、オブジェクトの相互注意マップとテキスト プロンプトからの新しい色属性の間の注意漏れと衝突により、テキスト ガイド付きの画像編集方法ではオブジェクトの色を変更できず、その結果、結果として得られる色と色の間で不整合が生じる可能性があります。
画像とテキストプロンプト。
この論文では、テキストガイドによる画像合成のプロセスと、さまざまなクロスアテンション ブロックがどのような意味情報を学習したかについて詳細な分析を行います。
オブジェクトの視覚的表現はノイズ除去プロセスの初期段階の拡散モデルのアップブロックで決定され、色調整はクロスアテンション層での値行列の調整によって実現できることがわかります。
私たちの発見に基づいて、追加の微調整やトレーニングを必要とせずに、オブジェクトの色を変更するための、簡単でありながら安定した効果的な画像ガイド付きの方法を提案します。
最後に、色変更手法のパフォーマンスを評価する最初のベンチマークである、COLORBENCH と呼ばれるベンチマーク データセットを紹介します。
広範な実験により、オブジェクトレベルのカラー編集における私たちの方法の有効性が検証され、合成画像と実際の画像の両方で一般的なテキストガイドによる画像編集アプローチのパフォーマンスを上回っています。

要約(オリジナル)

Text-to-image (T2I) diffusion models, with their impressive generative capabilities, have been adopted for image editing tasks, demonstrating remarkable efficacy. However, due to attention leakage and collision between the cross-attention map of the object and the new color attribute from the text prompt, text-guided image editing methods may fail to change the color of an object, resulting in a misalignment between the resulting image and the text prompt. In this paper, we conduct an in-depth analysis on the process of text-guided image synthesizing and what semantic information different cross-attention blocks have learned. We observe that the visual representation of an object is determined in the up-block of the diffusion model in the early stage of the denoising process, and color adjustment can be achieved through value matrices alignment in the cross-attention layer. Based on our findings, we propose a straightforward, yet stable, and effective image-guided method to modify the color of an object without requiring any additional fine-tuning or training. Lastly, we present a benchmark dataset called COLORBENCH, the first benchmark to evaluate the performance of color change methods. Extensive experiments validate the effectiveness of our method in object-level color editing and surpass the performance of popular text-guided image editing approaches in both synthesized and real images.

arxiv情報

著者 Xingxi Yin,Zhi Li,Jingfeng Zhang,Chenglin Li,Yin Zhang
発行日 2024-11-15 14:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク