Towards Arbitrary Text-driven Image Manipulation via Space Alignment

要約

最近の GAN 反転メソッドは、実際の画像入力を StyleGAN の対応する編集可能な潜在コードに正常に反転することができました。
言語視覚モデル (CLIP) と組み合わせることにより、いくつかのテキスト駆動型画像操作方法が提案されています。
ただし、これらの方法では、特定の画像や新しい属性編集モードの最適化を実行するために追加のコストがかかります。
より効率的な編集方法を実現するために、スペース アラインメント (TMSA) による新しいテキスト主導の画像操作フレームワークを提案します。
Space Alignment モジュールは、CLIP および StyleGAN 空間で同じセマンティック領域を揃えることを目的としています。
次に、テキスト入力を StyleGAN 空間に直接アクセスし、テキストの説明に従ってセマンティック シフトを見つけるために使用できます。
フレームワークは、追加コストなしで任意の画像編集モードをサポートできます。
私たちの仕事は、テキスト入力に従って特定の画像の属性を制御し、リアルタイムで結果を取得するためのインターフェイスをユーザーに提供します。
広範な実験により、以前の研究よりも優れたパフォーマンスが実証されています。

要約(オリジナル)

The recent GAN inversion methods have been able to successfully invert the real image input to the corresponding editable latent code in StyleGAN. By combining with the language-vision model (CLIP), some text-driven image manipulation methods are proposed. However, these methods require extra costs to perform optimization for a certain image or a new attribute editing mode. To achieve a more efficient editing method, we propose a new Text-driven image Manipulation framework via Space Alignment (TMSA). The Space Alignment module aims to align the same semantic regions in CLIP and StyleGAN spaces. Then, the text input can be directly accessed into the StyleGAN space and be used to find the semantic shift according to the text description. The framework can support arbitrary image editing mode without additional cost. Our work provides the user with an interface to control the attributes of a given image according to text input and get the result in real time. Ex tensive experiments demonstrate our superior performance over prior works.

arxiv情報

著者 Yunpeng Bai,Zihan Zhong,Chao Dong,Weichen Zhang,Guowei Xu,Chun Yuan
発行日 2023-01-25 16:20:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク