Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator

要約

3D 対応の画像合成は、写真のようにリアルな 2D 画像をレンダリングできる生成モデルを学習することを目的としています。
一般的な解決策は、敵対的生成ネットワーク (GAN) を採用し、ジェネレーターを 3D レンダラーに置き換えることです。この場合、ニューラル ラディアンス フィールド (NeRF) を使用したボリューム レンダリングが一般的に使用されます。
合成品質の向上にもかかわらず、既存の方法では中程度の 3D 形状を取得できません。
GAN の定式化における 2 人用ゲームを考慮すると、ジェネレーターを 3D 対応にするだけでは十分ではないと主張します。
言い換えれば、生成メカニズムを置き換えることは、3D 対応の画像を生成する機能を提供するだけであり、保証はありません。これは、ジェネレーターの監視は主にディスクリミネーターから行われるためです。
この問題に対処するために、ジオメトリを認識するディスクリミネーターを学習して 3D を認識する GAN を改善する GeoD を提案します。
具体的には、2D 画像空間から本物のサンプルと偽のサンプルを区別することに加えて、ディスクリミネーターはさらに、入力からジオメトリ情報を導出するように求められます。これは、ジェネレーターのガイダンスとして適用されます。
このようなシンプルでありながら効果的な設計により、より正確な 3D 形状の学習が容易になります。
さまざまなジェネレーター アーキテクチャとトレーニング データセットに関する広範な実験により、最先端の代替手段に対する GeoD の優位性が検証されています。
さらに、私たちのアプローチは一般的なフレームワークとして登録されており、より有能なディスクリミネーター (つまり、ドメイン分類とジオメトリ抽出を超える新しいビュー合成の 3 番目のタスク) が、より優れたマルチビューの一貫性でジェネレーターをさらに支援できます。

要約(オリジナル)

3D-aware image synthesis aims at learning a generative model that can render photo-realistic 2D images while capturing decent underlying 3D shapes. A popular solution is to adopt the generative adversarial network (GAN) and replace the generator with a 3D renderer, where volume rendering with neural radiance field (NeRF) is commonly used. Despite the advancement of synthesis quality, existing methods fail to obtain moderate 3D shapes. We argue that, considering the two-player game in the formulation of GANs, only making the generator 3D-aware is not enough. In other words, displacing the generative mechanism only offers the capability, but not the guarantee, of producing 3D-aware images, because the supervision of the generator primarily comes from the discriminator. To address this issue, we propose GeoD through learning a geometry-aware discriminator to improve 3D-aware GANs. Concretely, besides differentiating real and fake samples from the 2D image space, the discriminator is additionally asked to derive the geometry information from the inputs, which is then applied as the guidance of the generator. Such a simple yet effective design facilitates learning substantially more accurate 3D shapes. Extensive experiments on various generator architectures and training datasets verify the superiority of GeoD over state-of-the-art alternatives. Moreover, our approach is registered as a general framework such that a more capable discriminator (i.e., with a third task of novel view synthesis beyond domain classification and geometry extraction) can further assist the generator with a better multi-view consistency.

arxiv情報

著者 Zifan Shi,Yinghao Xu,Yujun Shen,Deli Zhao,Qifeng Chen,Dit-Yan Yeung
発行日 2022-09-30 17:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク