要約
Structure from Motion を介して画像からシーンのジオメトリを推測することは、コンピューター ビジョンにおける長年の基本的な問題です。
従来のアプローチ、および最近の深度マップ予測はシーンの可視部分のみに焦点を当てていますが、シーン完成のタスクは、遮蔽された領域であってもジオメトリを推論することを目的としています。
Neural Radiance Field (NeRF) の人気に伴い、いわゆる密度フィールドを予測することによってシーンを完成させるための暗黙的表現も普及しました。
明示的なアプローチとは異なります。
例えば
ボクセルベースの方法である密度フィールドにより、画像ベースのレンダリングによる正確な深度予測と新しいビューの合成も可能になります。
この研究では、複数の画像からのシーン再構成を融合し、この知識を抽出してより正確な単一ビューのシーン再構成を提案します。
この目的を達成するために、私たちは、画像データのみから完全に自己監視されてトレーニングされた、複数のポーズ画像からの密度フィールドを融合するマルチビュー ビハインド ザ シーン (MVBTS) を提案します。
知識の蒸留を使用し、MVBTS を使用して、KDBTS と呼ばれる直接監視を介してシングルビュー シーン補完ネットワークをトレーニングします。
特に遮蔽された領域での占有予測において最先端のパフォーマンスを実現します。
要約(オリジナル)
Inferring scene geometry from images via Structure from Motion is a long-standing and fundamental problem in computer vision. While classical approaches and, more recently, depth map predictions only focus on the visible parts of a scene, the task of scene completion aims to reason about geometry even in occluded regions. With the popularity of neural radiance fields (NeRFs), implicit representations also became popular for scene completion by predicting so-called density fields. Unlike explicit approaches. e.g. voxel-based methods, density fields also allow for accurate depth prediction and novel-view synthesis via image-based rendering. In this work, we propose to fuse the scene reconstruction from multiple images and distill this knowledge into a more accurate single-view scene reconstruction. To this end, we propose Multi-View Behind the Scenes (MVBTS) to fuse density fields from multiple posed images, trained fully self-supervised only from image data. Using knowledge distillation, we use MVBTS to train a single-view scene completion network via direct supervision called KDBTS. It achieves state-of-the-art performance on occupancy prediction, especially in occluded regions.
arxiv情報
著者 | Keonhee Han,Dominik Muhle,Felix Wimbauer,Daniel Cremers |
発行日 | 2024-04-11 17:30:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google