HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object Detection

要約

標準のカメラに加えて、自動運転車には通常、LIDARやレーダーなどの複数の追加センサーが含まれています。これらのセンサーは、運転シーンのコンテンツを認識するためのより豊富な情報を取得するのに役立ちます。
最近のいくつかの研究では、カメラとLIDAR、カメラとレーダーなど、特定のセンサーのペアを、調査対象の設定に固有のアーキテクチャコンポーネントを使用して融合することに焦点を当てていますが、一般的なモジュラーセンサー融合アーキテクチャは文献にありません。
この作業では、2D画像ドメインで定義される基本的な高レベルタスクである2Dオブジェクト検出に焦点を当て、任意の数の入力モダリティに直接スケーリングするマルチ解像度センサーフュージョンアーキテクチャであるHRFuserを提案します。
HRFuserの設計は、画像のみの高密度予測のための最先端の高解像度ネットワークに基づいており、複数の解像度で複数のモダリティの融合を実行する手段として、新しいマルチウィンドウクロスアテンションブロックを組み込んでいます。
カメラだけでも2D検出に非常に有益な機能を提供しますが、nuScenesとSeeing Through Fogデータセットの広範な実験を通じて、モデルが追加のモダリティからの補完的な機能を効果的に活用し、カメラのみのパフォーマンスを大幅に改善し、常に優れた状態であることを示します。
正常な状態と不利な状態の両方での2D検出のための最先端の融合方法。
ソースコードは公開されます。

要約(オリジナル)

Besides standard cameras, autonomous vehicles typically include multiple additional sensors, such as lidars and radars, which help acquire richer information for perceiving the content of the driving scene. While several recent works focus on fusing certain pairs of sensors – such as camera and lidar or camera and radar – by using architectural components specific to the examined setting, a generic and modular sensor fusion architecture is missing from the literature. In this work, we focus on 2D object detection, a fundamental high-level task which is defined on the 2D image domain, and propose HRFuser, a multi-resolution sensor fusion architecture that scales straightforwardly to an arbitrary number of input modalities. The design of HRFuser is based on state-of-the-art high-resolution networks for image-only dense prediction and incorporates a novel multi-window cross-attention block as the means to perform fusion of multiple modalities at multiple resolutions. Even though cameras alone provide very informative features for 2D detection, we demonstrate via extensive experiments on the nuScenes and Seeing Through Fog datasets that our model effectively leverages complementary features from additional modalities, substantially improving upon camera-only performance and consistently outperforming state-of-the-art fusion methods for 2D detection both in normal and adverse conditions. The source code will be made publicly available.

arxiv情報

著者 Tim Broedermann,Christos Sakaridis,Dengxin Dai,Luc Van Gool
発行日 2022-06-30 09:40:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク