HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object Detection

要約

自動運転車には通常、標準のカメラに加えて、ライダーやレーダーなどの複数の追加センサーが搭載されており、運転シーンの内容を認識するためのより豊富な情報を取得するのに役立ちます。
最近の研究のいくつかは、調査対象の設定に固有のアーキテクチャ コンポーネントを使用して、カメラと LIDAR またはレーダーなどの特定のセンサーのペアを融合することに焦点を当てていますが、一般的なモジュール式のセンサー フュージョン アーキテクチャは文献から欠落しています。
この研究では、マルチモーダル 2D オブジェクト検出のためのモジュール式アーキテクチャである HRFuser を提案します。
複数のセンサーを多重解像度方式で融合し、任意の数の入力モダリティに拡張します。
HRFuser の設計は、画像のみの高密度予測のための最先端の高解像度ネットワークに基づいており、複数の解像度で複数のモダリティの融合を実行する手段として、新しいマルチウィンドウ クロス アテンション ブロックが組み込まれています。
私たちは、nuScenes と悪条件の DENSE データセットに関する広範な実験を通じて、私たちのモデルが追加のモダリティからの補完的な機能を効果的に活用し、カメラのみのパフォーマンスを大幅に向上させ、2D オブジェクトで評価された最先端の 3D および 2D 融合手法を一貫して上回るパフォーマンスを示していることを実証しました。
検出メトリクス。
ソースコードは公開されています。

要約(オリジナル)

Besides standard cameras, autonomous vehicles typically include multiple additional sensors, such as lidars and radars, which help acquire richer information for perceiving the content of the driving scene. While several recent works focus on fusing certain pairs of sensors – such as camera with lidar or radar – by using architectural components specific to the examined setting, a generic and modular sensor fusion architecture is missing from the literature. In this work, we propose HRFuser, a modular architecture for multi-modal 2D object detection. It fuses multiple sensors in a multi-resolution fashion and scales to an arbitrary number of input modalities. The design of HRFuser is based on state-of-the-art high-resolution networks for image-only dense prediction and incorporates a novel multi-window cross-attention block as the means to perform fusion of multiple modalities at multiple resolutions. We demonstrate via extensive experiments on nuScenes and the adverse conditions DENSE datasets that our model effectively leverages complementary features from additional modalities, substantially improving upon camera-only performance and consistently outperforming state-of-the-art 3D and 2D fusion methods evaluated on 2D object detection metrics. The source code is publicly available.

arxiv情報

著者 Tim Broedermann,Christos Sakaridis,Dengxin Dai,Luc Van Gool
発行日 2023-08-11 11:06:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク