$\mathbf{C}^2$Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection

要約

可視 (RGB) および赤外線 (IR) 画像での物体検出は、24 時間アプリケーション向けの堅牢な検出を容易にする新たなソリューションとして、近年大きな注目を集めています。
IR 画像の助けにより、RGB-IR を組み合わせた情報を使用することで、物体検出器は実際のアプリケーションにおいてより信頼性が高く、堅牢になりました。
しかし、既存の方法には依然としてモダリティの誤ったキャリブレーションと融合の不正確さの問題が存在します。
Transformer には、異なる特徴間のペア相関をモデル化する強力な機能があるため、この論文では、これら 2 つの問題に同時に対処するために、$\mathrm{C}^2$Former と呼ばれる新しい校正済み相補型 Transformer を提案します。
$\mathrm{C}^2$Former では、RGB モダリティと IR モダリティの間のクロスアテンション関係を学習することで、校正された補完的な特徴を取得するためのモダリティ間クロスアテンション (ICA) モジュールを設計します。
ICA でのグローバル アテンションの計算によって発生する計算コストを削減するために、適応特徴サンプリング (AFS) モジュールが導入され、特徴マップの次元が削減されます。
$\mathrm{C}^2$Former は機能ドメインで実行されるため、バックボーン ネットワークを介して既存の RGB-IR オブジェクト検出器に組み込むことができます。
したがって、$\mathrm{C}^2$Former を組み込んだ 1 つの 1 段階物体検出器と 1 つの 2 段階物体検出器が構築され、その有効性と汎用性が評価されます。
DroneVehicle および KAIST RGB-IR データセットに関する広範な実験により、私たちの方法が RGB-IR 相補情報を完全に利用し、堅牢な検出結果を達成できることを検証しました。
コードは https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git で入手できます。

要約(オリジナル)

Object detection on visible (RGB) and infrared (IR) images, as an emerging solution to facilitate robust detection for around-the-clock applications, has received extensive attention in recent years. With the help of IR images, object detectors have been more reliable and robust in practical applications by using RGB-IR combined information. However, existing methods still suffer from modality miscalibration and fusion imprecision problems. Since transformer has the powerful capability to model the pairwise correlations between different features, in this paper, we propose a novel Calibrated and Complementary Transformer called $\mathrm{C}^2$Former to address these two problems simultaneously. In $\mathrm{C}^2$Former, we design an Inter-modality Cross-Attention (ICA) module to obtain the calibrated and complementary features by learning the cross-attention relationship between the RGB and IR modality. To reduce the computational cost caused by computing the global attention in ICA, an Adaptive Feature Sampling (AFS) module is introduced to decrease the dimension of feature maps. Because $\mathrm{C}^2$Former performs in the feature domain, it can be embedded into existed RGB-IR object detectors via the backbone network. Thus, one single-stage and one two-stage object detector both incorporating our $\mathrm{C}^2$Former are constructed to evaluate its effectiveness and versatility. With extensive experiments on the DroneVehicle and KAIST RGB-IR datasets, we verify that our method can fully utilize the RGB-IR complementary information and achieve robust detection results. The code is available at https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git.

arxiv情報

著者 Maoxun Yuan,Xingxing Wei
発行日 2023-06-28 12:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク