Object as Query: Equipping Any 2D Object Detector with 3D Detection Ability

要約

多視点画像からの3次元物体検出は、過去数年にわたり注目を集めている。既存の手法は、主にマルチビュー画像から3D表現を確立し、物体検出のために密集した検出ヘッドを採用するか、または、物体の位置決めのために3D空間に分散した物体クエリを採用するものである。本論文では、多視点3次元物体検出を促進するために、任意の2次元物体検出器を装備することができる多視点2次元物体誘導型3次元物体検出器(MV2D)を設計している。MV2Dは、2次元検出器を用いて、画像に含まれる豊富なセマンティクスを条件とする物体問い合わせを生成する。このように動的に生成されるクエリにより、MV2Dは計算量を増やすことなく、より広い3次元空間の物体を検出することができ、3次元物体の位置特定に高い能力を発揮することができる。生成されたクエリに対して、疎な交差注意モジュールを設計し、特定の物体の特徴に強制的に注目させることで、計算コストの削減とノイズによる干渉の抑制を実現している。nuScenesデータセットに対する評価結果から、動的なオブジェクトクエリと疎な特徴量の集約が3D検出能力を損なわないことが示された。また、MV2Dは既存手法の中で最先端の性能を発揮することがわかった。MV2Dが今後の研究の新たなベースラインとなることを期待する.

要約(オリジナル)

3D object detection from multi-view images has drawn much attention over the past few years. Existing methods mainly establish 3D representations from multi-view images and adopt a dense detection head for object detection, or employ object queries distributed in 3D space to localize objects. In this paper, we design Multi-View 2D Objects guided 3D Object Detector (MV2D), which can be equipped with any 2D object detector to promote multi-view 3D object detection. Since 2D detections can provide valuable priors for object existence, MV2D exploits 2D detector to generate object queries conditioned on the rich image semantics. These dynamically generated queries enable MV2D to detect objects in larger 3D space without increased computational costs and shows a strong capability of localizing 3D objects. For the generated queries, we design a sparse cross attention module to force them to focus on the features of specific objects, which reduces the computational cost and suppresses interference from noises. The evaluation results on the nuScenes dataset demonstrate that dynamic object queries and sparse feature aggregation do not harm 3D detection capability. MV2D also exhibits a state-of-the-art performance among existing methods. We hope MV2D can serve as a new baseline for future research.

arxiv情報

著者 Zitian Wang,Zehao Huang,Jiahui Fu,Naiyan Wang,Si Liu
発行日 2023-01-06 04:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク