Head Rotation in Denoising Diffusion Models

要約

ノイズ除去拡散モデル (DDM) は、深い生成モデリングの領域における最先端のテクノロジーとして台頭しており、敵対的生成ネットワークの優位性に挑戦しています。
ただし、潜在空間のセマンティクスを効果的に探索し、生成されたサンプルの重要な属性を操作および編集するための魅力的な軌道を特定することは、主に潜在空間の高次元の性質により依然として困難です。
この研究では、最も複雑な編集操作の 1 つとして知られる顔の回転に特に焦点を当てます。
Denoising Diffusion Implicit Models (DDIM) の最近の埋め込み技術を活用することで、多くの場合、$\pm 30^o$ の広い回転角を含む注目に値する操作を実現し、個人の明確な特性を保存します。
私たちの方法論は、線形回帰を通じて、異なるヨー回転を持つデータセット サンプルの潜在表現の雲を近似する軌道の計算を利用します。
特定の軌跡は、ソース画像と重要な属性を共有するデータのサブセットに分析を制限することによって取得されます。
これらの属性の 1 つは光の起源です。私たちの研究の副産物は、照明方向に基づいて画像を 3 つの主要なグループ (左、中央、右) に分類する CelebA のラベル付けです。

要約(オリジナル)

Denoising Diffusion Models (DDM) are emerging as the cutting-edge technology in the realm of deep generative modeling, challenging the dominance of Generative Adversarial Networks. However, effectively exploring the latent space’s semantics and identifying compelling trajectories for manipulating and editing important attributes of the generated samples remains challenging, primarily due to the high-dimensional nature of the latent space. In this study, we specifically concentrate on face rotation, which is known to be one of the most intricate editing operations. By leveraging a recent embedding technique for Denoising Diffusion Implicit Models (DDIM), we achieve, in many cases, noteworthy manipulations encompassing a wide rotation angle of $\pm 30^o$, preserving the distinct characteristics of the individual. Our methodology exploits the computation of trajectories approximating clouds of latent representations of dataset samples with different yaw rotations through linear regression. Specific trajectories are obtained by restricting the analysis to subsets of data sharing significant attributes with the source image. One of these attributes is the light provenance: a byproduct of our research is a labeling of CelebA, categorizing images into three major groups based on the illumination direction: left, center, and right.

arxiv情報

著者 Andrea Asperti,Gabriele Colasuonno,Antonio Guerra
発行日 2023-08-11 10:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 パーマリンク