A Multi-task Framework for Infrared Small Target Detection and Segmentation

要約

赤外線画像の複雑な背景とノイズのために、赤外線の小さなターゲットの検出は、コンピュータビジョンの分野で最も難しい問題の1つです。
ほとんどの既存の研究では、セマンティックセグメンテーション手法は通常、より良い結果を達成するために使用されます。
各ターゲットの重心は、検出結果としてセグメンテーションマップから計算されます。
対照的に、この論文では、赤外線の小さなターゲットの検出とセグメンテーションのための新しいエンドツーエンドのフレームワークを提案します。
まず、解像度とセマンティック情報を維持するためのバックボーンとしてUNetを使用することで、私たちのモデルは、単純なアンカーフリーヘッドを取り付けることにより、他の最先端の方法よりも高い検出精度を達成できます。
次に、ピラミッドプールモジュールを使用して、特徴をさらに抽出し、ターゲットセグメンテーションの精度を向上させます。
次に、ピクセルレベルの機能にさらに注意を払うセマンティックセグメンテーションタスクを使用して、オブジェクト検出のトレーニングプロセスを支援します。これにより、平均精度が向上し、モデルが以前は検出できなかった一部のターゲットを検出できるようになります。
さらに、赤外線の小さなターゲットの検出とセグメンテーションのためのマルチタスクフレームワークを開発します。
私たちのマルチタスク学習モデルは、精度を維持しながら、複合シングルタスクモデルと比較して、複雑さをほぼ半分に減らし、推論をほぼ2倍高速化します。
コードとモデルはhttps://github.com/Chenastron/MTUNetで公開されています。

要約(オリジナル)

Due to the complicated background and noise of infrared images, infrared small target detection is one of the most difficult problems in the field of computer vision. In most existing studies, semantic segmentation methods are typically used to achieve better results. The centroid of each target is calculated from the segmentation map as the detection result. In contrast, we propose a novel end-to-end framework for infrared small target detection and segmentation in this paper. First, with the use of UNet as the backbone to maintain resolution and semantic information, our model can achieve a higher detection accuracy than other state-of-the-art methods by attaching a simple anchor-free head. Then, a pyramid pool module is used to further extract features and improve the precision of target segmentation. Next, we use semantic segmentation tasks that pay more attention to pixel-level features to assist in the training process of object detection, which increases the average precision and allows the model to detect some targets that were previously not detectable. Furthermore, we develop a multi-task framework for infrared small target detection and segmentation. Our multi-task learning model reduces complexity by nearly half and speeds up inference by nearly twice compared to the composite single-task model, while maintaining accuracy. The code and models are publicly available at https://github.com/Chenastron/MTUNet.

arxiv情報

著者 Yuhang Chen,Liyuan Li,Xin Liu,Xiaofeng Su,Fansheng Chen
発行日 2022-06-14 15:43:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク