DSPDet3D: Dynamic Spatial Pruning for 3D Small Object Detection

要約

きめ細かな3Dオブジェクトの検出は、エージェントが3D環境を理解し、周囲のオブジェクトと対話するための中核的な能力である。しかし、現在の方法とベンチマークは、主に比較的大きなものに焦点を当てています。3Dオブジェクト検出器は、幾何学的な情報が弱いため、小さなオブジェクトではまだ苦労しています。詳細な研究により、我々は、特徴マップの空間解像度を上げることで、3D小物体検出の性能が大幅に向上することを発見しました。さらに興味深いことに、解像度を上げると計算量は劇的に増加するが、その増加分は主にデコーダーのアップサンプリング演算によるものである。DSPDet3Dは、反復的なアップサンプリングによって大から小へのオブジェクトを検出し、一方で、より高い解像度で検出すべき小オブジェクトが存在しない領域でシーンの空間表現を刈り取るものである。ScanNetとTO-SCENEデータセットを用いた2つのベンチマークを実施し、きめ細かな3次元物体検出の能力を評価したところ、DSPDet3Dは、既存の3次元物体検出方法と比較して、推論速度をリードしながら、小さな物体の検出性能を新たなレベルにまで向上させた。また、ScanNetルームのみを用いて学習したDSPDet3Dは、より大規模なシーンへの汎化が可能です。DSPDet3Dは、RTX 3090 GPU1台で、瓶からベッドまでほぼすべての物体を検出しながら、数十の部屋からなる家やビル全体を直接処理するのに2秒以下しかかかりません。プロジェクトページ: https://xuxw98.github.io/DSPDet3D/.

要約(オリジナル)

Fine-grained 3D object detection is a core ability for agents to understand their 3D environment and interact with surrounding objects. However, current methods and benchmarks mainly focus on relatively large stuff. 3D object detectors still struggle on small objects due to weak geometric information. With in-depth study, we find increasing the spatial resolution of the feature maps significantly boosts the performance of 3D small object detection. And more interestingly, though the computational overhead increases dramatically with resolution, the growth mainly comes from the upsampling operation of the decoder. Inspired by this, we present a high-resolution multi-level detector with dynamic spatial pruning named DSPDet3D, which detects objects from large to small by iterative upsampling and meanwhile prunes the spatial representation of the scene at regions where there is no smaller object to be detected in higher resolution. We organize two benchmarks on ScanNet and TO-SCENE dataset to evaluate the ability of fine-grained 3D object detection, where our DSPDet3D improves the detection performance of small objects to a new level while achieving leading inference speed compared with existing 3D object detection methods. Moreover, DSPDet3D trained with only ScanNet rooms can generalize well to scenes in larger scale. It takes less than 2s for DSPDet3D to directly process a whole house or building consisting of dozens of rooms while detecting out almost all objects, ranging from bottles to beds, on a single RTX 3090 GPU. Project page: https://xuxw98.github.io/DSPDet3D/.

arxiv情報

著者 Xiuwei Xu,Zhihao Sun,Ziwei Wang,Hongmin Liu,Jie Zhou,Jiwen Lu
発行日 2023-06-05 17:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク