RUST: Latent Neural Scene Representations from Unposed Imagery

要約

2D 観察から 3D シーンの構造を推測することは、コンピューター ビジョンにおける基本的な課題です。
ニューラル シーン表現に基づく最近普及したアプローチは、多大な影響をもたらし、さまざまなアプリケーションに適用されています。
この分野で残っている主要な課題の 1 つは、単一のシーンを超えて効果的に一般化する潜在的な表現を提供できる単一のモデルをトレーニングすることです。
Scene Representation Transformer (SRT) はこの方向で有望ですが、それを多様なシーンの大規模なセットにスケーリングすることは困難であり、正確に設定されたグラウンド トゥルース データが必要です。
この問題に対処するために、RUST (Really Unposed Scene Representation Transformer) を提案します。これは、RGB 画像のみでトレーニングされた新しいビュー合成へのポーズフリーのアプローチです。
私たちの主な洞察は、ターゲット画像を覗いてビュー合成のためにデコーダーによって使用される潜在的なポーズの埋め込みを学習するポーズ エンコーダーをトレーニングできるということです。
学習した潜在的なポーズ構造について経験的な調査を行い、それが意味のあるテスト時のカメラ変換と正確な明示的なポーズの読み出しを可能にすることを示します。
おそらく驚くべきことに、RUST は完璧なカメラ ポーズにアクセスできるメソッドと同様の品質を達成し、それによって償却されたニューラル シーン表現の大規模なトレーニングの可能性を解き放ちます。

要約(オリジナル)

Inferring the structure of 3D scenes from 2D observations is a fundamental challenge in computer vision. Recently popularized approaches based on neural scene representations have achieved tremendous impact and have been applied across a variety of applications. One of the major remaining challenges in this space is training a single model which can provide latent representations which effectively generalize beyond a single scene. Scene Representation Transformer (SRT) has shown promise in this direction, but scaling it to a larger set of diverse scenes is challenging and necessitates accurately posed ground truth data. To address this problem, we propose RUST (Really Unposed Scene representation Transformer), a pose-free approach to novel view synthesis trained on RGB images alone. Our main insight is that one can train a Pose Encoder that peeks at the target image and learns a latent pose embedding which is used by the decoder for view synthesis. We perform an empirical investigation into the learned latent pose structure and show that it allows meaningful test-time camera transformations and accurate explicit pose readouts. Perhaps surprisingly, RUST achieves similar quality as methods which have access to perfect camera pose, thereby unlocking the potential for large-scale training of amortized neural scene representations.

arxiv情報

著者 Mehdi S. M. Sajjadi,Aravindh Mahendran,Thomas Kipf,Etienne Pot,Daniel Duckworth,Mario Lucic,Klaus Greff
発行日 2022-11-25 18:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG, eess.IV パーマリンク