要約
Neural Radiance Fields (NeRF) は、新規ビュー合成に広く使用されており、3D オブジェクト検出 (3DOD) にも適応されており、ビュー合成表現を通じて 3DOD への有望なアプローチを提供します。
ただし、NeRF は、(i) 暗黙的な性質により 3DOD の表現能力が制限される、および (ii) レンダリング速度が遅いという固有の制限に直面しています。
最近、3D ガウス スプラッティング (3DGS) が、これらの制限に対処する明示的な 3D 表現として登場しました。
これらの利点に触発されて、この論文は 3DGS を 3DOD に初めて導入し、2 つの主な課題を特定します: (i) ガウス ブロブの曖昧な空間分布: 3DGS は主に 2D ピクセル レベルの監視に依存しているため、ガウス ブロブの 3D 空間分布が不明確になります。
オブジェクトと背景の区別が不十分で、3DOD の妨げになります。
(ii) 過剰な背景ブロブ: 2D 画像には多くの背景ピクセルが含まれることが多く、背景を表す多くのノイズの多いガウス ブロブを含む密な 3DGS が再構築され、検出に悪影響を及ぼします。
課題 (i) に取り組むために、私たちは 3DGS 再構成が 2D 画像から派生しているという事実を活用し、2D 境界ガイダンスを組み込んでガウス ブロブの空間分布を大幅に強化することで、オブジェクトとオブジェクト間の明確な区別を実現する、洗練された効率的なソリューションを提案します。
彼らの背景。
課題 (ii) に対処するために、2D ボックスを使用して 3D 空間でオブジェクトの確率分布を生成するボックス焦点サンプリング戦略を提案します。これにより、3D での効果的な確率的サンプリングが可能になり、より多くのオブジェクトの塊を保持し、ノイズの多い背景の塊を減らすことができます。
当社の設計の恩恵を受け、当社の 3DGS-DET は SOTA NeRF ベースの手法である NeRF-Det を大幅に上回り、ScanNet データセットの mAP@0.25 で +6.6、mAP@0.5 で +8.1、mAP@ で +31.5 という驚異的な改善を達成しました。
ARKITScenes データセットの場合は 0.25。
要約(オリジナル)
Neural Radiance Fields (NeRF) are widely used for novel-view synthesis and have been adapted for 3D Object Detection (3DOD), offering a promising approach to 3DOD through view-synthesis representation. However, NeRF faces inherent limitations: (i) limited representational capacity for 3DOD due to its implicit nature, and (ii) slow rendering speeds. Recently, 3D Gaussian Splatting (3DGS) has emerged as an explicit 3D representation that addresses these limitations. Inspired by these advantages, this paper introduces 3DGS into 3DOD for the first time, identifying two main challenges: (i) Ambiguous spatial distribution of Gaussian blobs: 3DGS primarily relies on 2D pixel-level supervision, resulting in unclear 3D spatial distribution of Gaussian blobs and poor differentiation between objects and background, which hinders 3DOD; (ii) Excessive background blobs: 2D images often include numerous background pixels, leading to densely reconstructed 3DGS with many noisy Gaussian blobs representing the background, negatively affecting detection. To tackle the challenge (i), we leverage the fact that 3DGS reconstruction is derived from 2D images, and propose an elegant and efficient solution by incorporating 2D Boundary Guidance to significantly enhance the spatial distribution of Gaussian blobs, resulting in clearer differentiation between objects and their background. To address the challenge (ii), we propose a Box-Focused Sampling strategy using 2D boxes to generate object probability distribution in 3D spaces, allowing effective probabilistic sampling in 3D to retain more object blobs and reduce noisy background blobs. Benefiting from our designs, our 3DGS-DET significantly outperforms the SOTA NeRF-based method, NeRF-Det, achieving improvements of +6.6 on mAP@0.25 and +8.1 on mAP@0.5 for the ScanNet dataset, and impressive +31.5 on mAP@0.25 for the ARKITScenes dataset.
arxiv情報
著者 | Yang Cao,Yuanliang Jv,Dan Xu |
発行日 | 2024-10-02 15:15:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google