要約
潜在的な3D再構成は、2D機能を3Dスペースに蒸留することにより、3Dセマンティック理解と3D生成に力を与えることに大きな期待を示しています。
ただし、既存のアプローチは、2Dフィーチャスペースと3D表現の間のドメインギャップと格闘しており、その結果、レンダリングパフォーマンスが低下します。
この課題に対処するために、3D認識を2D潜在スペースに統合する新しいフレームワークを提案します。
フレームワークは、3つの段階で構成されています。(1)2D潜在表現の3D一貫性を高める対応認識自動エンコード法、(2)これらの3D認識2D表現を3D空間に持ち上げる潜在放射輝度フィールド(LRF)、および(
3)レンダリングされた2D表現からの画像デコードを改善するVAE-Radianceフィールド(VAE-RF)アライメント戦略。
広範な実験は、私たちの方法が、多様な屋内および屋外シーン全体の合成性能とクロスダタセットの一般化可能性の観点から、最新の潜在的な3D再構成アプローチを上回ることを示しています。
私たちの知る限り、これは2D潜在表現から構築された放射界表現が光線現実的な3D再構成パフォーマンスをもたらす可能性があることを示す最初の作品です。
要約(オリジナル)
Latent 3D reconstruction has shown great promise in empowering 3D semantic understanding and 3D generation by distilling 2D features into the 3D space. However, existing approaches struggle with the domain gap between 2D feature space and 3D representations, resulting in degraded rendering performance. To address this challenge, we propose a novel framework that integrates 3D awareness into the 2D latent space. The framework consists of three stages: (1) a correspondence-aware autoencoding method that enhances the 3D consistency of 2D latent representations, (2) a latent radiance field (LRF) that lifts these 3D-aware 2D representations into 3D space, and (3) a VAE-Radiance Field (VAE-RF) alignment strategy that improves image decoding from the rendered 2D representations. Extensive experiments demonstrate that our method outperforms the state-of-the-art latent 3D reconstruction approaches in terms of synthesis performance and cross-dataset generalizability across diverse indoor and outdoor scenes. To our knowledge, this is the first work showing the radiance field representations constructed from 2D latent representations can yield photorealistic 3D reconstruction performance.
arxiv情報
著者 | Chaoyi Zhou,Xi Liu,Feng Luo,Siyu Huang |
発行日 | 2025-02-13 18:59:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google