要約
タイトル: ミックスド・アテンションに基づくRGB-Tトラッキング
要約:
– RGB-Tトラッキングは、可視光とサーマルの両方の画像を使用するものである。
– RGB-Tトラッキングにおける主な目的は、環境の変化に適応して比較的優位なモダリティを使い、シングルモダリティに比べてより堅牢なトラッキングを実現することである。
– この論文では、モダリティの相補的融合を実現するため、ミックスド・アテンション機構に基づいたRGB-Tトラッカー(MACFT)を提案している。
– 特徴抽出ステージでは、異なるトランスフォーマバックボーンブランチを利用して、異なるモダリティから特定および共有情報を抽出する。
– バックボーンでミックスド・アテンション演算を実行し、テンプレート画像と検索画像の間で情報の相互作用と自己増強を可能にすることで、ターゲットの高レベルな意味的特徴をより理解する堅牢な特徴表現を構築する。
– 次に、特徴融合ステージでは、混合アテンションに基づくモダリティ融合ネットワークにより、モダリティ適応型の融合が達成され、低品質のモダリティのノイズを抑制しながら、優勢なモダリティの情報を強化する。
– 複数のRGB-T公開データセットでの評価により、提案されたトラッカーは一般的な評価指標で他のRGB-Tトラッカーよりも優れた性能を発揮すると同時に、長期トラッキングシナリオにも適応できることが示された。
要約(オリジナル)
RGB-T tracking involves the use of images from both visible and thermal modalities. The primary objective is to adaptively leverage the relatively dominant modality in varying conditions to achieve more robust tracking compared to single-modality tracking. An RGB-T tracker based on mixed attention mechanism to achieve complementary fusion of modalities (referred to as MACFT) is proposed in this paper. In the feature extraction stage, we utilize different transformer backbone branches to extract specific and shared information from different modalities. By performing mixed attention operations in the backbone to enable information interaction and self-enhancement between the template and search images, it constructs a robust feature representation that better understands the high-level semantic features of the target. Then, in the feature fusion stage, a modality-adaptive fusion is achieved through a mixed attention-based modality fusion network, which suppresses the low-quality modality noise while enhancing the information of the dominant modality. Evaluation on multiple RGB-T public datasets demonstrates that our proposed tracker outperforms other RGB-T trackers on general evaluation metrics while also being able to adapt to longterm tracking scenarios.
arxiv情報
著者 | Yang Luo,Xiqing Guo,Mingtao Dong,Jin Yu |
発行日 | 2023-04-18 02:00:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI