3M3D: Multi-view, Multi-path, Multi-representation for 3D Object Detection

要約

マルチカメラ画像に基づく 3D 視覚認識タスクは、自動運転システムにとって不可欠です。
この分野の最新の研究では、マルチビュー画像を入力として活用し、クロスアテンドマルチビュー機能によってオブジェクト クエリ (オブジェクト提案) を反復的に強化することで 3D オブジェクト検出を実行します。
ただし、個々のバックボーン フィーチャはマルチビュー機能で更新されず、単一イメージ バックボーン ネットワークの出力の単なるコレクションとして残ります。
したがって、我々は、3M3D: 3D オブジェクト検出のためのマルチビュー、マルチパス、マルチ表現を提案します。この提案では、マルチビュー機能とクエリ機能の両方を更新して、細かいパノラマ ビューと粗いグローバル ビューの両方でシーンの表現を強化します。
まず、多視点軸自己注意により多視点機能を更新します。
マルチビュー機能にパノラマ情報が組み込まれ、地球規模の状況への理解が深まります。
第 2 に、特徴内の局所的な詳細をエンコードする ROI (関心領域) ウィンドウの自己注意によってマルチビュー特徴を更新します。
これは、マルチビュー軸に沿った情報だけでなく、他の空間次元に沿った情報の交換にも役立ちます。
最後に、さまざまなドメインでのクエリの複数表現の事実を利用して、パフォーマンスをさらに向上させます。
ここでは、疎な浮動クエリと高密度の BEV (Bird’s Eye View) クエリを使用します。これらのクエリは、後で後処理されて重複検出をフィルタリングします。
さらに、nuScenes ベンチマーク データセットではベースラインを上回るパフォーマンスの向上が示されています。

要約(オリジナル)

3D visual perception tasks based on multi-camera images are essential for autonomous driving systems. Latest work in this field performs 3D object detection by leveraging multi-view images as an input and iteratively enhancing object queries (object proposals) by cross-attending multi-view features. However, individual backbone features are not updated with multi-view features and it stays as a mere collection of the output of the single-image backbone network. Therefore we propose 3M3D: A Multi-view, Multi-path, Multi-representation for 3D Object Detection where we update both multi-view features and query features to enhance the representation of the scene in both fine panoramic view and coarse global view. Firstly, we update multi-view features by multi-view axis self-attention. It will incorporate panoramic information in the multi-view features and enhance understanding of the global scene. Secondly, we update multi-view features by self-attention of the ROI (Region of Interest) windows which encodes local finer details in the features. It will help exchange the information not only along the multi-view axis but also along the other spatial dimension. Lastly, we leverage the fact of multi-representation of queries in different domains to further boost the performance. Here we use sparse floating queries along with dense BEV (Bird’s Eye View) queries, which are later post-processed to filter duplicate detections. Moreover, we show performance improvements on nuScenes benchmark dataset on top of our baselines.

arxiv情報

著者 Jongwoo Park,Apoorv Singh,Varun Bankiti
発行日 2023-07-28 10:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク