Pluralistic Aging Diffusion Autoencoder

要約

顔の老化は不適切な問題です。これは、複数のもっともらしい老化パターンが特定の入力に対応する可能性があるためです。
ほとんどの既存の方法は、多くの場合、1 つの決定論的推定を生成します。
この論文では、老化パターンの多様性を強化するために、新しい CLIP 駆動の多元的老化拡散オートエンコーダー (PADA) を提案します。
まず、拡散モデルを使用して、シーケンシャルなノイズ除去のリバース プロセスを介して多様な低レベルのエージングの詳細を生成します。
次に、Probabilistic Aging Embedding (PAE) を提示して、多様な高レベルの老化パターンをキャプチャします。これは、年齢情報を共通の CLIP 潜在空間内の確率分布として表します。
テキスト ガイド付き KL ダイバージェンス ロスは、この学習をガイドするように設計されています。
私たちの方法は、オープンワールドの老化テキストと任意の目に見えない顔画像を条件とした多元的な顔の老化を実現できます。
定性的および定量的実験は、私たちの方法がより多様で高品質のもっともらしい老化結果を生成できることを示しています。

要約(オリジナル)

Face aging is an ill-posed problem because multiple plausible aging patterns may correspond to a given input. Most existing methods often produce one deterministic estimation. This paper proposes a novel CLIP-driven Pluralistic Aging Diffusion Autoencoder (PADA) to enhance the diversity of aging patterns. First, we employ diffusion models to generate diverse low-level aging details via a sequential denoising reverse process. Second, we present Probabilistic Aging Embedding (PAE) to capture diverse high-level aging patterns, which represents age information as probabilistic distributions in the common CLIP latent space. A text-guided KL-divergence loss is designed to guide this learning. Our method can achieve pluralistic face aging conditioned on open-world aging texts and arbitrary unseen face images. Qualitative and quantitative experiments demonstrate that our method can generate more diverse and high-quality plausible aging results.

arxiv情報

著者 Peipei Li,Rui Wang,Huaibo Huang,Ran He,Zhaofeng He
発行日 2023-03-20 13:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク