要約
既存の属性編集方法はセマンティック属性をバイナリとして扱うため、属性ごとに 1 回の編集が必要になります。
しかし、眼鏡、笑顔、髪型などの属性は非常に多様です。
この研究では、属性編集の多次元的な性質をモデル化することによって \textit{多様な属性編集} のタスクを定式化します。
これにより、ユーザーは属性ごとに複数の妥当な編集を生成できるようになります。
事前トレーニングされた GAN のもつれが解けた潜在空間を利用し、ノイズ除去拡散確率モデル (DDPM) をトレーニングして、さまざまな編集の潜在分布を学習します。
具体的には、単一の属性変更を含む画像ペアを埋め込むことで得られる潜在的な編集方向のデータセットに対して DDPM をトレーニングします。
これにより、多様な属性編集を可能にする潜在部分空間が生まれます。
高度に圧縮された潜在空間に拡散を適用すると、限られた計算リソース内で編集の豊富な分布をモデル化できます。
さまざまなデータセットにわたって実施された広範な定性的および定量的実験を通じて、多様な属性編集に対するアプローチの有効性を実証します。
また、さまざまな顔属性の 3D 編集に適用した方法の結果も紹介します。
要約(オリジナル)
Existing attribute editing methods treat semantic attributes as binary, resulting in a single edit per attribute. However, attributes such as eyeglasses, smiles, or hairstyles exhibit a vast range of diversity. In this work, we formulate the task of \textit{diverse attribute editing} by modeling the multidimensional nature of attribute edits. This enables users to generate multiple plausible edits per attribute. We capitalize on disentangled latent spaces of pretrained GANs and train a Denoising Diffusion Probabilistic Model (DDPM) to learn the latent distribution for diverse edits. Specifically, we train DDPM over a dataset of edit latent directions obtained by embedding image pairs with a single attribute change. This leads to latent subspaces that enable diverse attribute editing. Applying diffusion in the highly compressed latent space allows us to model rich distributions of edits within limited computational resources. Through extensive qualitative and quantitative experiments conducted across a range of datasets, we demonstrate the effectiveness of our approach for diverse attribute editing. We also showcase the results of our method applied for 3D editing of various face attributes.
arxiv情報
著者 | Rishubh Parihar,Prasanna Balaji,Raghav Magazine,Sarthak Vora,Tejan Karmali,Varun Jampani,R. Venkatesh Babu |
発行日 | 2023-11-27 18:14:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google