CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Image Manipulation

要約

最近導入された Contrastive Language-Image Pre-Training (CLIP) は、画像とテキストを結合潜在空間に埋め込むことでブリッジします。
これにより、テキストによる説明を提供することで入力画像を操作することを目的とした豊富な文献への扉が開かれます。
ただし、ジョイント スペース内の画像とテキストの埋め込みの間に不一致があるため、テキストの埋め込みを最適化ターゲットとして使用すると、結果の画像に望ましくないアーティファクトが生じることがよくあります。
もつれの解消、解釈可能性、および制御可能性も、操作に対して保証するのは困難です。
これらの問題を軽減するために、関連するプロンプトにまたがるコーパスのサブスペースを定義して、特定の画像特性をキャプチャすることを提案します。
テキストガイドによる画像操作のパフォーマンスを向上させるための最適化ターゲットとして、CLIP Projection-Augmentation Embedding (PAE) を導入します。
私たちの方法は、簡単に計算して適応させることができ、CLIPベースの画像操作アルゴリズムにスムーズに組み込むことができるシンプルで一般的なパラダイムです。
私たちの方法の有効性を実証するために、いくつかの理論的および実証的研究を実施します。
ケーススタディとして、テキストガイドによるセマンティック顔編集の方法を利用します。
PAE が、最先端の品質と精度を備えた、より解きほぐされ、解釈可能で、制御可能な画像操作を促進することを定量的および定性的に示します。

要約(オリジナル)

Recently introduced Contrastive Language-Image Pre-Training (CLIP) bridges images and text by embedding them into a joint latent space. This opens the door to ample literature that aims to manipulate an input image by providing a textual explanation. However, due to the discrepancy between image and text embeddings in the joint space, using text embeddings as the optimization target often introduces undesired artifacts in the resulting images. Disentanglement, interpretability, and controllability are also hard to guarantee for manipulation. To alleviate these problems, we propose to define corpus subspaces spanned by relevant prompts to capture specific image characteristics. We introduce CLIP Projection-Augmentation Embedding (PAE) as an optimization target to improve the performance of text-guided image manipulation. Our method is a simple and general paradigm that can be easily computed and adapted, and smoothly incorporated into any CLIP-based image manipulation algorithm. To demonstrate the effectiveness of our method, we conduct several theoretical and empirical studies. As a case study, we utilize the method for text-guided semantic face editing. We quantitatively and qualitatively demonstrate that PAE facilitates a more disentangled, interpretable, and controllable image manipulation with state-of-the-art quality and accuracy.

arxiv情報

著者 Chenliang Zhou,Fangcheng Zhong,Cengiz Oztireli
発行日 2022-11-25 15:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク