Shape, Pose, and Appearance from a Single Image via Bootstrapped Radiance Field Inversion

要約

ニューラル ラディアンス フィールド (NeRF) と GAN を組み合わせると、任意のトポロジを効率的にモデル化できるため、単一のビューからの 3D 再構成の分野で有望な方向性が示されます。
ただし、この分野での最近の研究は、正確なグラウンド トゥルース ポーズが既知である合成データセットに主に焦点を当てており、拡張現実 (AR) やロボット工学などの特定のダウンストリーム アプリケーションにとって重要なポーズ推定を見落としています。
正確なグラウンドトゥルースポーズが利用できない自然画像の原則的なエンドツーエンドの再構成フレームワークを紹介します。
私たちのアプローチは、トレーニング中に複数のビューを利用することなく、オブジェクトの 1 つの画像から SDF パラメーター化された 3D 形状、ポーズ、および外観を復元します。
より具体的には、無条件の 3D 認識ジェネレーターを活用します。これには、モデルがソリューションの最初の推測を生成し、最適化によって洗練されるハイブリッド反転スキームを適用します。
私たちのフレームワークは、わずか 10 ステップで画像をデレンダリングできるため、実際のシナリオで使用できます。
さまざまな実際のベンチマークと合成ベンチマークで最先端の結果を示します。

要約(オリジナル)

Neural Radiance Fields (NeRF) coupled with GANs represent a promising direction in the area of 3D reconstruction from a single view, owing to their ability to efficiently model arbitrary topologies. Recent work in this area, however, has mostly focused on synthetic datasets where exact ground-truth poses are known, and has overlooked pose estimation, which is important for certain downstream applications such as augmented reality (AR) and robotics. We introduce a principled end-to-end reconstruction framework for natural images, where accurate ground-truth poses are not available. Our approach recovers an SDF-parameterized 3D shape, pose, and appearance from a single image of an object, without exploiting multiple views during training. More specifically, we leverage an unconditional 3D-aware generator, to which we apply a hybrid inversion scheme where a model produces a first guess of the solution which is then refined via optimization. Our framework can de-render an image in as few as 10 steps, enabling its use in practical scenarios. We demonstrate state-of-the-art results on a variety of real and synthetic benchmarks.

arxiv情報

著者 Dario Pavllo,David Joseph Tan,Marie-Julie Rakotosaona,Federico Tombari
発行日 2023-03-20 11:33:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク