AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection

要約

マルチスペクトル歩行者検出は、複雑な照明シナリオでのパフォーマンスを向上させるのに効果的であることが示されています。
ただし、マルチスペクトル検出で普及しているダブルストリーム ネットワークは、マルチモーダル データに対して 2 つの別個の特徴抽出ブランチを使用するため、1 つの特徴抽出ブランチのみを使用するシングルストリーム ネットワークと比較して推論時間がほぼ 2 倍になります。
この推論時間の増加により、自律システム用の組み込みデバイスにおけるマルチスペクトル歩行者検出の広範な採用が妨げられています。
この制限に対処するために、さまざまな知識抽出方法が提案されています。
ただし、従来の蒸留方法は融合特徴のみに焦点を当て、元のマルチモーダル特徴に含まれる大量の情報を無視するため、学生ネットワークのパフォーマンスが制限されます。
この課題に取り組むために、教師ネットワークの元のモーダル機能を最大限に活用できる適応型モーダ​​ル融合蒸留 (AMFD) フレームワークを導入します。
具体的には、モーダル抽出アライメント (MEA) モジュールを利用して、学生ネットワークの学習重みを導き出し、焦点メカニズムと全体的な注意メカニズムを統合します。
この方法論により、追加の機能融合モジュールを必要とせずに、生徒ネットワークが教師ネットワークの戦略から独立した最適な融合戦略を取得できるようになります。
さらに、検出用に適切に調整された困難なマルチスペクトル データセットである SMOD データセットを紹介します。
AMFD の有効性を検証するために、困難な KAIST、LLVIP、SMOD データセットに関する広範な実験が実施されています。
結果は、私たちの方法が対数平均ミス率の削減と平均平均精度の向上の両方において既存の最先端の方法よりも優れていることを示しています。
コードは https://github.com/bigD233/AMFD.git で入手できます。

要約(オリジナル)

Multispectral pedestrian detection has been shown to be effective in improving performance within complex illumination scenarios. However, prevalent double-stream networks in multispectral detection employ two separate feature extraction branches for multi-modal data, leading to nearly double the inference time compared to single-stream networks utilizing only one feature extraction branch. This increased inference time has hindered the widespread employment of multispectral pedestrian detection in embedded devices for autonomous systems. To address this limitation, various knowledge distillation methods have been proposed. However, traditional distillation methods focus only on the fusion features and ignore the large amount of information in the original multi-modal features, thereby restricting the student network’s performance. To tackle the challenge, we introduce the Adaptive Modal Fusion Distillation (AMFD) framework, which can fully utilize the original modal features of the teacher network. Specifically, a Modal Extraction Alignment (MEA) module is utilized to derive learning weights for student networks, integrating focal and global attention mechanisms. This methodology enables the student network to acquire optimal fusion strategies independent from that of teacher network without necessitating an additional feature fusion module. Furthermore, we present the SMOD dataset, a well-aligned challenging multispectral dataset for detection. Extensive experiments on the challenging KAIST, LLVIP and SMOD datasets are conducted to validate the effectiveness of AMFD. The results demonstrate that our method outperforms existing state-of-the-art methods in both reducing log-average Miss Rate and improving mean Average Precision. The code is available at https://github.com/bigD233/AMFD.git.

arxiv情報

著者 Zizhao Chen,Yeqiang Qian,Xiaoxiao Yang,Chunxiang Wang,Ming Yang
発行日 2024-05-21 17:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク