FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion

要約

ファッション画像編集は、与えられた入力画像に選択された衣服を組み込むことを目的とした、挑戦的なコンピュータビジョンタスクである。既存の手法の多くは、仮想試着法と呼ばれ、まず希望する服装の例画像を選択し、その服装をターゲット人物に転写することでこの課題に対処している。一方、本論文では、ファッション画像にテキストを記述して編集することを考える。本手法は、例えば、(i) 対象となるファッションアイテムの画像を必要としない、(ii) 自然言語により多様な視覚的概念を表現できる、などの利点がある。既存の言語入力による画像編集手法は、豊富な属性情報を持つ学習セットを必要としたり、単純なテキスト記述しか扱えなかったりと、大きな制約がある。我々は、FICE (Fashion Image CLIP Editing) と呼ばれる新しいテキスト条件付き編集モデルを提案し、編集手順を導くための多様なテキスト記述を扱うことができるようにすることで、これらの制約を解決する。FICEでは、一般的なGANの反転処理に、意味的制約、ポーズ関連制約、画像レベルの制約を加えて画像を生成する。画像とテキストの関連付けに優れたCLIPモデルの機能を利用して、セマンティクスを強化する。さらに、合成画像の忠実度をより良く制御するための手段として、潜在コード正則化手法を提案する。我々は、VITON画像とFashion-Genテキストを組み合わせた厳密な実験を通して、また、いくつかの最新のテキスト条件付き画像編集アプローチとの比較を通してFICEを検証しています。実験の結果、FICEは非常にリアルなファッション画像を生成し、既存の競合アプローチよりも強力な編集性能につながることが実証されました。

要約(オリジナル)

Fashion-image editing represents a challenging computer vision task, where the goal is to incorporate selected apparel into a given input image. Most existing techniques, known as Virtual Try-On methods, deal with this task by first selecting an example image of the desired apparel and then transferring the clothing onto the target person. Conversely, in this paper, we consider editing fashion images with text descriptions. Such an approach has several advantages over example-based virtual try-on techniques, e.g.: (i) it does not require an image of the target fashion item, and (ii) it allows the expression of a wide variety of visual concepts through the use of natural language. Existing image-editing methods that work with language inputs are heavily constrained by their requirement for training sets with rich attribute annotations or they are only able to handle simple text descriptions. We address these constraints by proposing a novel text-conditioned editing model, called FICE (Fashion Image CLIP Editing), capable of handling a wide variety of diverse text descriptions to guide the editing procedure. Specifically with FICE, we augment the common GAN inversion process by including semantic, pose-related, and image-level constraints when generating images. We leverage the capabilities of the CLIP model to enforce the semantics, due to its impressive image-text association capabilities. We furthermore propose a latent-code regularization technique that provides the means to better control the fidelity of the synthesized images. We validate FICE through rigorous experiments on a combination of VITON images and Fashion-Gen text descriptions and in comparison with several state-of-the-art text-conditioned image editing approaches. Experimental results demonstrate FICE generates highly realistic fashion images and leads to stronger editing performance than existing competing approaches.

arxiv情報

著者 Martin Pernuš,Clinton Fookes,Vitomir Štruc,Simon Dobrišek
発行日 2023-01-05 15:33:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク