Enhanced Small Target Detection via Multi-Modal Fusion and Attention Mechanisms: A YOLOv5 Approach

要約

情報技術の急速な発展に伴い、近代的な戦争はますます知性に依存しており、軍事用途では小さなターゲット検出が重要になっています。
効率的でリアルタイムの検出に対する需要の高まりは、干渉のために複雑な環境で小さなターゲットを特定する上で課題を生み出しています。
これに対処するために、マルチモーダル画像の融合と注意メカニズムに基づいた小さなターゲット検出方法を提案します。
この方法は、Yolov5を活用し、赤外線と可視光データを統合し、検出パフォーマンスを向上させるための畳み込み注意モジュールを統合します。
このプロセスは、機能ポイントマッチングを使用したマルチモーダルデータセット登録から始まり、正確なネットワークトレーニングを確保します。
赤外線と可視光の特徴を注意メカニズムと組み合わせることにより、モデルは検出の精度と堅牢性を向上させます。
抗UAVおよびVisdroneデータセットの実験結果は、私たちのアプローチの有効性と実用性を示し、小規模および薄暗いターゲットの優れた検出結果を達成します。

要約(オリジナル)

With the rapid development of information technology, modern warfare increasingly relies on intelligence, making small target detection critical in military applications. The growing demand for efficient, real-time detection has created challenges in identifying small targets in complex environments due to interference. To address this, we propose a small target detection method based on multi-modal image fusion and attention mechanisms. This method leverages YOLOv5, integrating infrared and visible light data along with a convolutional attention module to enhance detection performance. The process begins with multi-modal dataset registration using feature point matching, ensuring accurate network training. By combining infrared and visible light features with attention mechanisms, the model improves detection accuracy and robustness. Experimental results on anti-UAV and Visdrone datasets demonstrate the effectiveness and practicality of our approach, achieving superior detection results for small and dim targets.

arxiv情報

著者 Xiaoxiao Ma,Junxiong Tong
発行日 2025-04-15 15:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク