Triple-domain Feature Learning with Frequency-aware Memory Enhancement for Moving Infrared Small Target Detection

要約

物体検出のサブフィールドとして、移動する赤外線の小さなターゲットの検出には、ターゲットのサイズが小さく、背景に対するコントラストが低いため、大きな課題が生じます。
現在存在する手法は主に、時空間領域からのみ抽出された特徴に依存しています。
周波数領域は画像処理に広く応用されていますが、まだほとんど考慮されていません。
特徴ソースドメインを拡張し、特徴表現を強化するために、赤外線小型ターゲット検出用の時空間ドメインで周波数を意識したメモリ強化を備えた新しいトリプルドメイン戦略(Tridos)を提案します。
このスキームでは、フーリエ変換を備えたローカル-グローバル周波数認識モジュールによって周波数特徴を効果的に切り離し、強化します。
人間の視覚システムにインスピレーションを得た当社のメモリ拡張機能は、ビデオ フレーム間の赤外線ターゲットの空間関係をキャプチャするように設計されています。
さらに、差分学習と残差強化を通じて時間ダイナミクスの動きの特徴をエンコードします。
さらに、可能性のあるクロスドメインの特徴の不一致を調整するために、残留補償をさらに設計します。
私たちの知る限り、提案された Tridos は、時空間周波数領域で包括的に赤外線ターゲットの特徴学習を探求する最初の研究です。
3 つのデータセット (DAUB、ITSDT-15K、IRDST) に対する広範な実験により、トリプルドメインの赤外線特徴学習スキームが、多くの場合、最先端のものよりも明らかに優れている可能性があることが検証されました。
ソース コードは https://github.com/UESTC-nnLab/Tridos で入手できます。

要約(オリジナル)

As a sub-field of object detection, moving infrared small target detection presents significant challenges due to tiny target sizes and low contrast against backgrounds. Currently-existing methods primarily rely on the features extracted only from spatio-temporal domain. Frequency domain has hardly been concerned yet, although it has been widely applied in image processing. To extend feature source domains and enhance feature representation, we propose a new Triple-domain Strategy (Tridos) with the frequency-aware memory enhancement on spatio-temporal domain for infrared small target detection. In this scheme, it effectively detaches and enhances frequency features by a local-global frequency-aware module with Fourier transform. Inspired by human visual system, our memory enhancement is designed to capture the spatial relations of infrared targets among video frames. Furthermore, it encodes temporal dynamics motion features via differential learning and residual enhancing. Additionally, we further design a residual compensation to reconcile possible cross-domain feature mismatches. To our best knowledge, proposed Tridos is the first work to explore infrared target feature learning comprehensively in spatio-temporal-frequency domains. The extensive experiments on three datasets (i.e., DAUB, ITSDT-15K and IRDST) validate that our triple-domain infrared feature learning scheme could often be obviously superior to state-of-the-art ones. Source codes are available at https://github.com/UESTC-nnLab/Tridos.

arxiv情報

著者 Weiwei Duan,Luping Ji,Shengjia Chen,Sicheng Zhu,Mao Ye
発行日 2024-09-05 14:16:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク