Viewpoint Equivariance for Multi-View 3D Object Detection


タイトル:複数視点3Dオブジェクト検出のためのViewpoint Equivariance

– ロボットシステムにおいて、視覚センサーからの3D物体検出は重要な能力である。
– 現状の最先端技術では、複数の視点からのカメラ入力からオブジェクトのバウンディングボックスの理解とデコードに重点が置かれている。
– 本研究では、3Dシーンの理解とジオメトリック学習における複数視点の一貫性の重要性から洞察を得た。
– このため、VEDetという新しい3D物体検出フレームワークを導入し、視点認識と等価性を通じて3D複数視点ジオメトリを活用して、ローカリゼーションを向上させる。
– VEDetは、クエリベースのトランスフォーマーアーキテクチャを活用し、3Dシーンを、それらの3D視点ジオメトリからの位置エンコーディングで画像フィーチャを拡張することによってエンコードする。
– 出力レベルでビュー条件のついたクエリを設計し、トレーニング中に複数の仮想フレームを生成して、複数視点の一貫性を強制することで、視点等価性を学習させることができる。
– 入力レベルで注入された多視点ジオメトリは、位置エンコーディングとして正規化され、3D物体検出に対する豊富なジオメトリックな手がかりを提供し、nuScenesベンチマークにおいて最先端のパフォーマンスを実現している。
– コードとモデルは、 で使用可能である。


3D object detection from visual sensors is a cornerstone capability of robotic systems. State-of-the-art methods focus on reasoning and decoding object bounding boxes from multi-view camera input. In this work we gain intuition from the integral role of multi-view consistency in 3D scene understanding and geometric learning. To this end, we introduce VEDet, a novel 3D object detection framework that exploits 3D multi-view geometry to improve localization through viewpoint awareness and equivariance. VEDet leverages a query-based transformer architecture and encodes the 3D scene by augmenting image features with positional encodings from their 3D perspective geometry. We design view-conditioned queries at the output level, which enables the generation of multiple virtual frames during training to learn viewpoint equivariance by enforcing multi-view consistency. The multi-view geometry injected at the input level as positional encodings and regularized at the loss level provides rich geometric cues for 3D object detection, leading to state-of-the-art performance on the nuScenes benchmark. The code and model are made available at


著者 Dian Chen,Jie Li,Vitor Guizilini,Rares Ambrus,Adrien Gaidon
発行日 2023-04-07 04:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク