Robust Environment Perception for Automated Driving: A Unified Learning Pipeline for Visual-Infrared Object Detection

要約

RGBのCMOSセンサーは、可視光領域で動作します。そのため、環境光の影響を非常に受けやすい。一方、長波長赤外線(LWIR)センサーは、8~14マイクロメートルの波長帯で動作し、可視光に依存せずに機能する。 本論文では、視覚と熱覚の両方を利用して、ロバストな物体検出を目指す。FLIR [1]のデータセットに同期し、(クロス)ラベリングを行った後、このマルチモーダル知覚データは畳み込みニューラルネットワーク(CNN)を通過し、道路上の3つの重要な物体、すなわち歩行者、自転車、自動車を検出します。RGBと赤外線(熱と赤外線はしばしば同じ意味で使われる)センサーを別々に評価した後、データを特徴レベルで効果的に融合するために、様々なネットワーク構造を比較する。新規のエントロピーブロック注目モジュール(EBAM)を利用した我々のRGB-熱(RGBT)融合ネットワークは、82.9%のmAPで、最先端ネットワーク[2]を10%上回る性能を発揮している。

要約(オリジナル)

The RGB complementary metal-oxidesemiconductor (CMOS) sensor works within the visible light spectrum. Therefore it is very sensitive to environmental light conditions. On the contrary, a long-wave infrared (LWIR) sensor operating in 8-14 micro meter spectral band, functions independent of visible light. In this paper, we exploit both visual and thermal perception units for robust object detection purposes. After delicate synchronization and (cross-) labeling of the FLIR [1] dataset, this multi-modal perception data passes through a convolutional neural network (CNN) to detect three critical objects on the road, namely pedestrians, bicycles, and cars. After evaluation of RGB and infrared (thermal and infrared are often used interchangeably) sensors separately, various network structures are compared to fuse the data at the feature level effectively. Our RGB-thermal (RGBT) fusion network, which takes advantage of a novel entropy-block attention module (EBAM), outperforms the state-of-the-art network [2] by 10% with 82.9% mAP.

arxiv情報

著者 Mohsen Vadidar,Ali Kariminezhad,Christian Mayr,Laurent Kloeker,Lutz Eckstein
発行日 2022-06-08 15:02:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.IT, math.IT パーマリンク