Cross-Modality Proposal-guided Feature Mining for Unregistered RGB-Thermal Pedestrian Detection

要約

RGB サーマル (RGB-T) 歩行者検出は、RGB-T 画像ペア内の歩行者の位置を特定し、2 つのモダリティ間の補完性を利用して、極限状態での検出の堅牢性を向上させることを目的としています。
既存のアルゴリズムのほとんどは、RGB-T 画像ペアが適切に位置合わせされていることを前提としていますが、現実の世界では、視差やカメラの視野の違いにより、これらの画像ペアは理想的に位置合わせされていません。
位置がずれた画像ペア内の歩行者は 2 つの画像の異なる位置に位置する可能性があり、その結果 2 つの課題が生じます。1) 空間的に位置がずれた RGB-T 歩行者パッチを使用してモダリティ間の補完を実現する方法、2) ペアになっていない歩行者を位置で認識する方法
境界。
これらの問題に対処するために、我々は未登録の RGB-T 歩行者検出のための新しいパラダイムを提案します。これは、RGB 画像と熱画像の 2 つの別々の歩行者の位置をそれぞれ予測します。
具体的には、たとえ RGB-T 画像ペアが整列していない場合でも、2 つのモダリティで歩行者を表現するための 2 つの正確な融合特徴を抽出するクロスモダリティ提案ガイド型特徴マイニング (CPFM) メカニズムを提案します。
これにより、2 つのモダリティ間の補完性を効果的に活用できるようになります。
CPFM メカニズムを使用して、2 ストリームの高密度検出器を構築します。
CPFM メカニズムによってマイニングされた対応する融合特徴に基づいて、2 つのモダリティにおける 2 つの歩行者の位置を予測します。
さらに、画像間のスケールとビューの不一致をシミュレートするために、ホモグラフィーと呼ばれるデータ拡張方法を設計します。
また、後処理のための 2 つの非最大抑制 (NMS) 方法も調査します。
好ましい実験結果は、シフトが異なる登録されていない歩行者に対処する際の私たちの方法の有効性と堅牢性を示しています。

要約(オリジナル)

RGB-Thermal (RGB-T) pedestrian detection aims to locate the pedestrians in RGB-T image pairs to exploit the complementation between the two modalities for improving detection robustness in extreme conditions. Most existing algorithms assume that the RGB-T image pairs are well registered, while in the real world they are not aligned ideally due to parallax or different field-of-view of the cameras. The pedestrians in misaligned image pairs may locate at different positions in two images, which results in two challenges: 1) how to achieve inter-modality complementation using spatially misaligned RGB-T pedestrian patches, and 2) how to recognize the unpaired pedestrians at the boundary. To deal with these issues, we propose a new paradigm for unregistered RGB-T pedestrian detection, which predicts two separate pedestrian locations in the RGB and thermal images, respectively. Specifically, we propose a cross-modality proposal-guided feature mining (CPFM) mechanism to extract the two precise fusion features for representing the pedestrian in the two modalities, even if the RGB-T image pair is unaligned. It enables us to effectively exploit the complementation between the two modalities. With the CPFM mechanism, we build a two-stream dense detector; it predicts the two pedestrian locations in the two modalities based on the corresponding fusion feature mined by the CPFM mechanism. Besides, we design a data augmentation method, named Homography, to simulate the discrepancy in scales and views between images. We also investigate two non-maximum suppression (NMS) methods for post-processing. Favorable experimental results demonstrate the effectiveness and robustness of our method in dealing with unregistered pedestrians with different shifts.

arxiv情報

著者 Chao Tian,Zikun Zhou,Yuqing Huang,Gaojun Li,Zhenyu He
発行日 2023-08-23 12:58:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク