BTMTrack: Robust RGB-T Tracking via Dual-template Bridging and Temporal-Modal Candidate Elimination

要約

RGB-T トラッキングは、RGB と熱赤外線 (TIR) モダリティの相補的な強みを活用して、低照度や悪天候などの困難なシナリオに対処します。
しかし、既存の方法では、時間情報を効果的に統合したり、効率的なクロスモーダル相互作用を実行したりすることができないことが多く、動的ターゲットへの適応性が制約されます。
この論文では、RGB-T トラッキングのための新しいフレームワークである BTMTrack を提案します。
私たちのアプローチの中核は、デュアル テンプレート バックボーン ネットワークと時間的モーダル候補排除 (TMCE) 戦略にあります。
デュアル テンプレート バックボーンは時間情報を効果的に統合しますが、TMCE 戦略は時間相関とモーダル相関を評価することでモデルをターゲット関連トークンに集中させ、計算オーバーヘッドを削減し、無関係なバックグラウンド ノイズを回避します。
この基盤に基づいて、動的にフィルタリングされたトークンを通じて正確なクロスモーダル融合を促進する、Temporal Dual Template Bridging (TDTB) モジュールを提案します。
このアプローチにより、テンプレートと検索領域間の相互作用がさらに強化されます。
3 つのベンチマーク データセットに対して行われた広範な実験により、BTMTrack の有効性が実証されました。
私たちのメソッドは、LasHeR テスト セットで 72.3% の精度率、RGBT210 および RGBT234 データセットで競合する結果という、最先端のパフォーマンスを実現します。

要約(オリジナル)

RGB-T tracking leverages the complementary strengths of RGB and thermal infrared (TIR) modalities to address challenging scenarios such as low illumination and adverse weather. However, existing methods often fail to effectively integrate temporal information and perform efficient cross-modal interactions, which constrain their adaptability to dynamic targets. In this paper, we propose BTMTrack, a novel framework for RGB-T tracking. The core of our approach lies in the dual-template backbone network and the Temporal-Modal Candidate Elimination (TMCE) strategy. The dual-template backbone effectively integrates temporal information, while the TMCE strategy focuses the model on target-relevant tokens by evaluating temporal and modal correlations, reducing computational overhead and avoiding irrelevant background noise. Building upon this foundation, we propose the Temporal Dual Template Bridging (TDTB) module, which facilitates precise cross-modal fusion through dynamically filtered tokens. This approach further strengthens the interaction between templates and the search region. Extensive experiments conducted on three benchmark datasets demonstrate the effectiveness of BTMTrack. Our method achieves state-of-the-art performance, with a 72.3% precision rate on the LasHeR test set and competitive results on RGBT210 and RGBT234 datasets.

arxiv情報

著者 Zhongxuan Zhang,Bi Zeng,Xinyu Ni,Yimin Du
発行日 2025-01-09 14:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク