StyleHumanCLIP: Text-guided Garment Manipulation for StyleGAN-Human

要約

本論文では、StyleGANを用いたテキストガイド制御による、全身人物画像における衣服の編集に取り組む。既存のStyleGANベースの手法は、衣服や体型・ポーズの多様性に対応することに苦慮している。我々は、既存のマッパーよりもStyleGANをより分離して制御することが可能な、注意ベースの潜在コードマッパーを介したテキストガイド付き全身人物画像合成のフレームワークを提案する。我々の潜在コードマッパーは、テキストガイドの下で、異なるStyleGANレイヤー上の個々の潜在コードを適応的に操作するアテンションメカニズムを採用している。さらに、テキスト入力による不要な変化を避けるために、推論時に特徴空間のマスキングを導入している。我々の定量的・定性的評価により、本手法は既存の手法よりも、与えられたテキストに対してより忠実に生成画像を制御できることが明らかになった。

要約(オリジナル)

This paper tackles text-guided control of StyleGAN for editing garments in full-body human images. Existing StyleGAN-based methods suffer from handling the rich diversity of garments and body shapes and poses. We propose a framework for text-guided full-body human image synthesis via an attention-based latent code mapper, which enables more disentangled control of StyleGAN than existing mappers. Our latent code mapper adopts an attention mechanism that adaptively manipulates individual latent codes on different StyleGAN layers under text guidance. In addition, we introduce feature-space masking at inference time to avoid unwanted changes caused by text inputs. Our quantitative and qualitative evaluations reveal that our method can control generated images more faithfully to given texts than existing methods.

arxiv情報

著者 Takato Yoshikawa,Yuki Endo,Yoshihiro Kanamori
発行日 2023-09-01 09:13:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク