Radar Guided Dynamic Visual Attention for Resource-Efficient RGB Object Detection

要約

自律システムの知覚エンジンは、意思決定を行うために環境を正確に理解する必要があります。
深層学習ベースのオブジェクト検出ネットワークでは、ネットワークの上位層に移動するにつれてオブジェクトの特徴マップが減少するため、小さくて遠くのオブジェクトのパフォーマンスと堅牢性が低下します。
この作業では、動的環境で動作する自動運転車の知覚品質を向上させるために、RGB画像の新しいレーダー誘導空間注意を提案します。
特に、私たちの方法は、RGBモードのオブジェクト検出器では検出されないことが多い小距離および長距離のオブジェクトの知覚を改善します。
提案された方法は、2つのRGBオブジェクト検出器、つまり一次検出器と軽量の二次検出器で構成されています。
一次検出器は完全なRGB画像を取得し、一次検出を生成します。
次に、レーダー提案フレームワークは、レーダーポイントクラウドを2D RGB画像に投影することにより、オブジェクト提案の関心領域(ROI)を作成します。
これらのROIはトリミングされ、二次検出器に送られ、二次検出が生成されます。二次検出は、非最大抑制を介して一次検出と融合されます。
この方法は、受容野の増加を通じてオブジェクトの空間的特徴を維持することにより、小さなオブジェクトを回復するのに役立ちます。
挑戦的なnuScenesデータセットで融合方法を評価し、一次および二次検出器としてSSD-liteを使用した融合方法により、ベースラインの一次yolov3検出器のリコールが14%向上し、必要な計算リソースが3分の1になることを示します。

要約(オリジナル)

An autonomous system’s perception engine must provide an accurate understanding of the environment for it to make decisions. Deep learning based object detection networks experience degradation in the performance and robustness for small and far away objects due to a reduction in object’s feature map as we move to higher layers of the network. In this work, we propose a novel radar-guided spatial attention for RGB images to improve the perception quality of autonomous vehicles operating in a dynamic environment. In particular, our method improves the perception of small and long range objects, which are often not detected by the object detectors in RGB mode. The proposed method consists of two RGB object detectors, namely the Primary detector and a lightweight Secondary detector. The primary detector takes a full RGB image and generates primary detections. Next, the radar proposal framework creates regions of interest (ROIs) for object proposals by projecting the radar point cloud onto the 2D RGB image. These ROIs are cropped and fed to the secondary detector to generate secondary detections which are then fused with the primary detections via non-maximum suppression. This method helps in recovering the small objects by preserving the object’s spatial features through an increase in their receptive field. We evaluate our fusion method on the challenging nuScenes dataset and show that our fusion method with SSD-lite as primary and secondary detector improves the baseline primary yolov3 detector’s recall by 14% while requiring three times fewer computational resources.

arxiv情報

著者 Hemant Kumawat,Saibal Mukhopadhyay
発行日 2022-06-03 18:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク