NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection

要約

屋内シーンでは、オブジェクトの位置とスケールが多様に分布しているため、視覚的な 3D 認識タスクが大きな課題となります。
これまでの研究 (例: NeRF-Det) は、暗黙的表現が、入力画像間の重複が多い屋内シーンにおける視覚 3D 認識タスクに利益をもたらす能力があることを実証しました。
しかし、これまでの作品では、固定サンプリングと単純なマルチビュー特徴融合のため、暗黙的表現の進歩を十分に活用することができませんでした。
この論文では、スパースファッション法 (例: DETR3D) に触発され、上記の問題に対処するためのシンプルかつ効果的な方法である NeRF-DetS を提案します。
NeRF-DetS には、Progressive Adaptive Sampling Strategy (PASS) と Depth-Guided Simplified Multi-Head Attendant Fusion (DS-MHA) の 2 つのモジュールが含まれています。
具体的には、(1)PASS は、前の層によって予測されたオフセットを使用して、高密度 3D 検出器内の各層の特徴を自動的にサンプリングできます。
(2)DS-MHA は、マルチビュー機能と強力なオクルージョン認識を効率的に融合できるだけでなく、計算コストも削減します。
ScanNetV2 データセットでの広範な実験により、IoU25 および IoU50 でそれぞれ +5.02% および +5.92% の mAP 改善を達成し、NeRF-DetS が NeRF-Det よりも優れていることが実証されました。
また、NeRF-DetS は ARKITScenes で一貫した改善を示しています。

要約(オリジナル)

In indoor scenes, the diverse distribution of object locations and scales makes the visual 3D perception task a big challenge. Previous works (e.g, NeRF-Det) have demonstrated that implicit representation has the capacity to benefit the visual 3D perception task in indoor scenes with high amount of overlap between input images. However, previous works cannot fully utilize the advancement of implicit representation because of fixed sampling and simple multi-view feature fusion. In this paper, inspired by sparse fashion method (e.g, DETR3D), we propose a simple yet effective method, NeRF-DetS, to address above issues. NeRF-DetS includes two modules: Progressive Adaptive Sampling Strategy (PASS) and Depth-Guided Simplified Multi-Head Attention Fusion (DS-MHA). Specifically, (1)PASS can automatically sample features of each layer within a dense 3D detector, using offsets predicted by the previous layer. (2)DS-MHA can not only efficiently fuse multi-view features with strong occlusion awareness but also reduce computational cost. Extensive experiments on ScanNetV2 dataset demonstrate our NeRF-DetS outperforms NeRF-Det, by achieving +5.02% and +5.92% improvement in mAP under IoU25 and IoU50, respectively. Also, NeRF-DetS shows consistent improvements on ARKITScenes.

arxiv情報

著者 Chi Huang,Xinyang Li,Yansong Qu,Changli Wu,Xiaofan Li,Shengchuan Zhang,Liujuan Cao
発行日 2024-12-30 13:26:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク