要約
StyleGAN の表現力ともつれの解けた潜在空間を活用する既存の 2D アプローチでは、さまざまな属性を持つ顔画像を編集するためのテキスト プロンプトが採用されています。
対照的に、さまざまなターゲットポーズで顔を生成する 3D 対応のアプローチでは、属性ごとに個別のモデルの重みを学習する属性固有の分類器が必要であり、新しい属性には拡張できません。
この研究では、属性固有のプロンプト学習に基づいた効率的なプラグアンドプレイの 3D 対応顔編集フレームワークを提案し、さまざまなターゲット ポーズにわたって制御可能な属性を持つ顔画像の生成を可能にします。
この目的を達成するために、テキスト駆動型の学習可能なスタイルのトークンベースの潜在属性エディター (LAE) を導入します。
LAE は、事前トレーニングされた視覚言語モデルを利用して、事前トレーニングされた 3D 対応 GAN の潜在空間でテキストガイドに基づく属性固有の編集方向を見つけます。
学習可能なスタイル トークンとスタイル マッパーを利用して、この編集方向を学習し、3D 潜在空間に変換します。
複数の属性で LAE をトレーニングするために、方向性コントラスト損失とスタイル トークン損失を使用します。
さらに、さまざまなポーズや属性にわたってビューの一貫性とアイデンティティの保持を確保するために、いくつかの 3D 対応のアイデンティティとポーズの保持損失を採用しています。
私たちの実験では、提案したフレームワークが属性固有の機能を維持しながら、3D 認識とビューの一貫性を備えた高品質の画像を生成することを示しています。
髪の色やスタイル、表情などを含むさまざまな顔の属性に対するこの方法の有効性を実証します。
要約(オリジナル)
Drawing upon StyleGAN’s expressivity and disentangled latent space, existing 2D approaches employ textual prompting to edit facial images with different attributes. In contrast, 3D-aware approaches that generate faces at different target poses require attribute-specific classifiers, learning separate model weights for each attribute, and are not scalable for novel attributes. In this work, we propose an efficient, plug-and-play, 3D-aware face editing framework based on attribute-specific prompt learning, enabling the generation of facial images with controllable attributes across various target poses. To this end, we introduce a text-driven learnable style token-based latent attribute editor (LAE). The LAE harnesses a pre-trained vision-language model to find text-guided attribute-specific editing direction in the latent space of any pre-trained 3D-aware GAN. It utilizes learnable style tokens and style mappers to learn and transform this editing direction to 3D latent space. To train LAE with multiple attributes, we use directional contrastive loss and style token loss. Furthermore, to ensure view consistency and identity preservation across different poses and attributes, we employ several 3D-aware identity and pose preservation losses. Our experiments show that our proposed framework generates high-quality images with 3D awareness and view consistency while maintaining attribute-specific features. We demonstrate the effectiveness of our method on different facial attributes, including hair color and style, expression, and others.
arxiv情報
著者 | Amandeep Kumar,Muhammad Awais,Sanath Narayan,Hisham Cholakkal,Salman Khan,Rao Muhammad Anwer |
発行日 | 2024-07-24 10:16:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google