3M3D: Multi-view, Multi-path, Multi-representation for 3D Object Detection

要約

自律走行システムには、マルチカメラ画像に基づく3次元視覚認識タスクが不可欠である。この分野の最新の研究では、マルチビュー画像を入力として活用し、マルチビュー特徴をクロスアタッチすることでオブジェクトクエリ(オブジェクト提案)を反復的に強化することで3Dオブジェクト検出を行っています。しかし、個々のバックボーン特徴はマルチビュー特徴で更新されず、単一画像のバックボーンネットワークの出力の単なる集合体として留まる。そこで、我々は3M3Dを提案する。ここでは、マルチビュー特徴量とクエリ特徴量の両方を更新し、ファインパノラマビューと粗いグローバルビューの両方でシーンの表現力を向上させる。まず、マルチビュー軸の自己アテンションにより、マルチビュー特徴を更新する。これにより、パノラマ情報をマルチビュー特徴量に取り込み、グローバルシーンの理解を深めることができます。次に、ROI(Region of Interest)ウィンドウの自己アテンションにより、マルチビューの特徴量を更新します。これにより、マルチビュー軸だけでなく、他の空間次元に沿った情報交換が可能になります。最後に、異なるドメインにおけるクエリの多重表現という事実を活用し、パフォーマンスをさらに向上させます。ここでは、疎なフローティングクエリーと密なBEV(Bird’s Eye View)クエリーを使用し、後処理で重複検出をフィルタリングしています。さらに、nuScenesベンチマークデータセットにおいて、ベースラインよりも性能が向上していることを示す。

要約(オリジナル)

3D visual perception tasks based on multi-camera images are essential for autonomous driving systems. Latest work in this field performs 3D object detection by leveraging multi-view images as an input and iteratively enhancing object queries (object proposals) by cross-attending multi-view features. However, individual backbone features are not updated with multi-view features and it stays as a mere collection of the output of the single-image backbone network. Therefore we propose 3M3D: A Multi-view, Multi-path, Multi-representation for 3D Object Detection where we update both multi-view features and query features to enhance the representation of the scene in both fine panoramic view and coarse global view. Firstly, we update multi-view features by multi-view axis self-attention. It will incorporate panoramic information in the multi-view features and enhance understanding of the global scene. Secondly, we update multi-view features by self-attention of the ROI (Region of Interest) windows which encodes local finer details in the features. It will help exchange the information not only along the multi-view axis but also along the other spatial dimension. Lastly, we leverage the fact of multi-representation of queries in different domains to further boost the performance. Here we use sparse floating queries along with dense BEV (Bird’s Eye View) queries, which are later post-processed to filter duplicate detections. Moreover, we show performance improvements on nuScenes benchmark dataset on top of our baselines.

arxiv情報

著者 Jongwoo Park,Apoorv Singh,Varun Bankiti
発行日 2023-03-07 14:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク