要約
神経輝度場に基づく3D認識GANは競争力のある性能を達成しているが、その適用範囲は、明確に定義された正統的なカメラポーズの基底真理または予測モデルを持つオブジェクトまたはシーンにまだ限定されている。適用可能なデータセットの範囲を拡大するために、我々は、暗黙的なポーズ埋め込みを用いた対比学習による、新しい3D認識GAN最適化手法を提案する。この目的のために、まず識別器の設計を見直し、グラウンドトゥルースのカメラポーズへの依存を取り除く。次に、複雑で困難な3Dシーン構造をより効果的に捉えるために、識別器に与えられた画像から高次元の暗黙的なポーズ埋め込みを推定させ、そのポーズ埋め込みに対してコントラスト学習を行う。提案アプローチは、カメラポーズを調べたり推定したりしないため、正準カメラポーズが定義されていないデータセットに採用できる。実験結果は、複数のオブジェクトカテゴリを持ち、正準カメラポーズが不一致なデータセットにおいて、我々のアルゴリズムが既存手法よりも大きなマージンをもって優れていることを示している。
要約(オリジナル)
Although 3D-aware GANs based on neural radiance fields have achieved competitive performance, their applicability is still limited to objects or scenes with the ground-truths or prediction models for clearly defined canonical camera poses. To extend the scope of applicable datasets, we propose a novel 3D-aware GAN optimization technique through contrastive learning with implicit pose embeddings. To this end, we first revise the discriminator design and remove dependency on ground-truth camera poses. Then, to capture complex and challenging 3D scene structures more effectively, we make the discriminator estimate a high-dimensional implicit pose embedding from a given image and perform contrastive learning on the pose embedding. The proposed approach can be employed for the dataset, where the canonical camera pose is ill-defined because it does not look up or estimate camera poses. Experimental results show that our algorithm outperforms existing methods by large margins on the datasets with multiple object categories and inconsistent canonical camera poses.
arxiv情報
著者 | Mijeong Kim,Hyunjoon Lee,Bohyung Han |
発行日 | 2023-07-03 11:34:38+00:00 |
arxivサイト | arxiv_id(pdf) |