Behind the Scenes: Density Fields for Single View Reconstruction

要約

単一の画像から意味のある幾何学的シーン表現を推測することは、コンピューター ビジョンの基本的な問題です。
従来の深度マップ予測に基づくアプローチでは、画像に表示されている領域についてのみ推論できます。
現在、ニューラル放射輝度場 (NeRF) は、色を含む真の 3D をキャプチャできますが、複雑すぎて単一の画像から生成できません。
別の方法として、単一の画像から暗黙的な密度場を予測するニューラル ネットワークを導入します。
画像の錐台のすべての位置を体積密度にマッピングします。
私たちのネットワークは、ビデオ データのみからの自己監視によってトレーニングできます。
インプリシット ボリュームに色を保存するのではなく、トレーニング中に使用可能なビューから色を直接サンプリングすることで、シーン表現は NeRF に比べて大幅に複雑になりません。また、ニューラル ネットワークをトレーニングして予測することもできます。
したがって、ボリューム レンダリングを適用して、深度予測と新しいビュー合成の両方を実行できます。
私たちの実験では、私たちの方法が入力画像で遮られている領域の意味のあるジオメトリを予測できることを示しています。
さらに、深度予測と新規ビュー合成のための 3 つのデータセットに対するアプローチの可能性を示します。

要約(オリジナル)

Inferring a meaningful geometric scene representation from a single image is a fundamental problem in computer vision. Approaches based on traditional depth map prediction can only reason about areas that are visible in the image. Currently, neural radiance fields (NeRFs) can capture true 3D including color but are too complex to be generated from a single image. As an alternative, we introduce a neural network that predicts an implicit density field from a single image. It maps every location in the frustum of the image to volumetric density. Our network can be trained through self-supervision from only video data. By not storing color in the implicit volume, but directly sampling color from the available views during training, our scene representation becomes significantly less complex compared to NeRFs, and we can train neural networks to predict it. Thus, we can apply volume rendering to perform both depth prediction and novel view synthesis. In our experiments, we show that our method is able to predict meaningful geometry for regions that are occluded in the input image. Additionally, we demonstrate the potential of our approach on three datasets for depth prediction and novel-view synthesis.

arxiv情報

著者 Felix Wimbauer,Nan Yang,Christian Rupprecht,Daniel Cremers
発行日 2023-02-28 13:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク