要約
3D 対応の敵対的生成ネットワーク (GAN) の最近の進歩は、ほぼ正面から見た人間の顔の合成の開発に役立っていますが、あらゆる角度から見える完全な 3D 頭部を包括的に合成するという課題は依然として残っています。
PanoHead は、正面図と背面図の両方の画像を含む大規模なデータセットを使用して頭部全体を合成できる可能性を証明していますが、背面図にアーティファクトが発生することがよくあります。
詳細な分析に基づいて、その理由は主に 2 つあることがわかりました。
まず、ネットワーク アーキテクチャの観点から、利用されているトライプレーン/トライグリッド表現空間内の各プレーンは、両側からの特徴を混同する傾向があり、「ミラーリング」アーティファクト (例: 眼鏡が後ろに表示される) を引き起こすことがわかりました。
次に、データ監視の観点から、3D GAN の既存の識別子トレーニングは主にレンダリングされた画像自体の品質に焦点を当てており、レンダリングされた視点での妥当性についてはあまり気にしていないことがわかりました。
これにより、識別者をだますのが容易なため、正面以外のビューで「顔」を生成することが可能になります。
これに応えて、人間の頭の幾何学的特徴に適合し、生成されるアーティファクトの多くを効率的に軽減する、球面座標系における新しい三面表現である SphereHead を提案します。
さらに、カメラパラメータと画像の対応を強調するために、弁別器にビューと画像の一貫性損失を導入します。
これらの取り組みを組み合わせることで、アーティファクトが大幅に減少し、視覚的に優れた結果が得られます。
私たちのコードとデータセットは https://lhyfst.github.io/spherehead で公開されています。
要約(オリジナル)
While recent advances in 3D-aware Generative Adversarial Networks (GANs) have aided the development of near-frontal view human face synthesis, the challenge of comprehensively synthesizing a full 3D head viewable from all angles still persists. Although PanoHead proves the possibilities of using a large-scale dataset with images of both frontal and back views for full-head synthesis, it often causes artifacts for back views. Based on our in-depth analysis, we found the reasons are mainly twofold. First, from network architecture perspective, we found each plane in the utilized tri-plane/tri-grid representation space tends to confuse the features from both sides, causing ‘mirroring’ artifacts (e.g., the glasses appear in the back). Second, from data supervision aspect, we found that existing discriminator training in 3D GANs mainly focuses on the quality of the rendered image itself, and does not care much about its plausibility with the perspective from which it was rendered. This makes it possible to generate ‘face’ in non-frontal views, due to its easiness to fool the discriminator. In response, we propose SphereHead, a novel tri-plane representation in the spherical coordinate system that fits the human head’s geometric characteristics and efficiently mitigates many of the generated artifacts. We further introduce a view-image consistency loss for the discriminator to emphasize the correspondence of the camera parameters and the images. The combination of these efforts results in visually superior outcomes with significantly fewer artifacts. Our code and dataset are publicly available at https://lhyfst.github.io/spherehead.
arxiv情報
著者 | Heyuan Li,Ce Chen,Tianhao Shi,Yuda Qiu,Sizhe An,Guanying Chen,Xiaoguang Han |
発行日 | 2024-07-16 15:52:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google