WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for Fast Multispectral Pedestrian Detection

要約

マルチスペクトル歩行者検出は、困難な状況でも良好な視認性を実現するため、精度と計算コストの両方が最も重要となるさまざまなタスクに幅広く応用できます。
既存のアプローチのほとんどは、RGB モダリティと赤外線モダリティを同等に扱い、通常、マルチモーダル特徴抽出に 2 つの対称 CNN バックボーンを採用します。これにより、モダリティ間の実質的な違いが無視され、計算コストの削減と効果的なクロスモーダル融合に大きな困難が生じます。
この研究では、より低い計算複雑さでさまざまなスペクトルの豊富な特徴を差分的に抽出し、効果的なクロスモーダル融合のためにこれらの特徴を意味論的に再配置できる、WCCNet という名前の新規で効率的なフレームワークを提案します。
具体的には、高速な推論とトレーニング速度を可能にする離散ウェーブレット変換 (DWT) が組み込まれており、効率的な特徴抽出のためのデュアル ストリーム バックボーンを構築します。
WCCNet の DWT レイヤーは赤外線モダリティの周波数成分を抽出し、CNN レイヤーは RGB モダリティの空間領域特徴を抽出します。
この方法論は、計算の複雑さを大幅に軽減するだけでなく、赤外線特徴の抽出を改善して、その後のクロスモーダル融合を容易にします。
適切に抽出された特徴に基づいて、空間的な位置ずれを軽減し、空間的に関連する局所領域の意味的に相補的な特徴をマージして、クロスモーダル相補情報を増幅できるクロスモーダル再配置融合モジュール (CMRF) を精巧に設計します。
当社は KAIST および FLIR ベンチマークの包括的な評価を実施しています。その評価では、WCCNet が大幅な計算効率と競合精度で最先端の手法を上回っています。
また、アブレーション研究も実施し、さまざまなコンポーネントが WCCNet のパフォーマンスに与える影響を徹底的に分析します。

要約(オリジナル)

Multispectral pedestrian detection achieves better visibility in challenging conditions and thus has a broad application in various tasks, for which both the accuracy and computational cost are of paramount importance. Most existing approaches treat RGB and infrared modalities equally, typically adopting two symmetrical CNN backbones for multimodal feature extraction, which ignores the substantial differences between modalities and brings great difficulty for the reduction of the computational cost as well as effective crossmodal fusion. In this work, we propose a novel and efficient framework named WCCNet that is able to differentially extract rich features of different spectra with lower computational complexity and semantically rearranges these features for effective crossmodal fusion. Specifically, the discrete wavelet transform (DWT) allowing fast inference and training speed is embedded to construct a dual-stream backbone for efficient feature extraction. The DWT layers of WCCNet extract frequency components for infrared modality, while the CNN layers extract spatial-domain features for RGB modality. This methodology not only significantly reduces the computational complexity, but also improves the extraction of infrared features to facilitate the subsequent crossmodal fusion. Based on the well extracted features, we elaborately design the crossmodal rearranging fusion module (CMRF), which can mitigate spatial misalignment and merge semantically complementary features of spatially-related local regions to amplify the crossmodal complementary information. We conduct comprehensive evaluations on KAIST and FLIR benchmarks, in which WCCNet outperforms state-of-the-art methods with considerable computational efficiency and competitive accuracy. We also perform the ablation study and analyze thoroughly the impact of different components on the performance of WCCNet.

arxiv情報

著者 Xingjian Wang,Li Chai,Jiming Chen,Zhiguo Shi
発行日 2023-08-02 09:35:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク