TMSA: Towards Arbitrary Text-driven Image Manipulation via Space Alignment

要約

最近の GAN 反転手法は、実画像入力を StyleGAN の対応する編集可能な潜在コードに正常に反転することができました。
言語視覚モデル (CLIP) と組み合わせることで、いくつかのテキスト駆動型の画像操作方法が提案されています。
ただし、これらの方法では、特定の画像の最適化や新しい属性編集モードを実行するために追加のコストが必要になります。
より効率的な編集方法を実現するために、スペース アライメント (TMSA) による新しいテキスト駆動型画像操作フレームワークを提案します。
スペース アライメント モジュールは、CLIP スペースと StyleGAN スペースで同じセマンティック領域を位置合わせすることを目的としています。
次に、テキスト入力は StyleGAN 空間に直接アクセスでき、テキストの説明に従ってセマンティック シフトを見つけるために使用できます。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートできます。
私たちの取り組みは、テキスト入力に従って特定の画像の属性を制御し、リアルタイムで結果を取得するためのインターフェイスをユーザーに提供します。
広範な実験により、以前の研究よりも優れたパフォーマンスが実証されました。

要約(オリジナル)

The recent GAN inversion methods have been able to successfully invert the real image input to the corresponding editable latent code in StyleGAN. By combining with the language-vision model (CLIP), some text-driven image manipulation methods are proposed. However, these methods require extra costs to perform optimization for a certain image or a new attribute editing mode. To achieve a more efficient editing method, we propose a new Text-driven image Manipulation framework via Space Alignment (TMSA). The Space Alignment module aims to align the same semantic regions in CLIP and StyleGAN spaces. Then, the text input can be directly accessed into the StyleGAN space and be used to find the semantic shift according to the text description. The framework can support arbitrary image editing mode without additional cost. Our work provides the user with an interface to control the attributes of a given image according to text input and get the result in real time. Ex tensive experiments demonstrate our superior performance over prior works.

arxiv情報

著者 Yunpeng Bai,Zihan Zhong,Chao Dong,Weichen Zhang,Guowei Xu,Chun Yuan
発行日 2023-09-13 14:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク