Temporal Adaptive RGBT Tracking with Modality Prompt

要約

RGBT トラッキングは、ロボット工学、監視処理、自動運転などのさまざまな分野で広く使用されています。
既存の RGBT トラッカーは、テンプレートと検索領域の間の空間情報を完全に探索し、外観の一致結果に基づいてターゲットの位置を特定します。
ただし、これらの RGBT トラッカーは時間情報の利用が非常に限定的であり、時間情報を無視するか、オンライン サンプリングとトレーニングを通じて時間情報を利用します。
前者はオブジェクトの状態変化に対処するのに苦労しますが、後者は空間情報と時間情報の間の相関関係を無視します。
これらの制限を軽減するために、TATrack という名前の新しい時間適応型 RGBT トラッキング フレームワークを提案します。
TATrack は時空間 2 ストリーム構造を持ち、オンライン更新テンプレートによって時間情報をキャプチャします。2 ストリーム構造は、それぞれ初期テンプレートとオンライン更新テンプレートのマルチモーダル特徴抽出とクロスモーダル相互作用を指します。
TATrack は、ターゲットの位置特定のための時空間情報とマルチモーダル情報の包括的な活用に貢献します。
さらに、2 つの分岐を橋渡しし、より長い時間スケールにわたるクロスモーダル相互作用を可能にする時空間相互作用 (STI) メカニズムを設計します。
3 つの一般的な RGBT 追跡ベンチマークに関する広範な実験により、私たちの方法がリアルタイム速度で実行しながら最先端のパフォーマンスを達成できることがわかりました。

要約(オリジナル)

RGBT tracking has been widely used in various fields such as robotics, surveillance processing, and autonomous driving. Existing RGBT trackers fully explore the spatial information between the template and the search region and locate the target based on the appearance matching results. However, these RGBT trackers have very limited exploitation of temporal information, either ignoring temporal information or exploiting it through online sampling and training. The former struggles to cope with the object state changes, while the latter neglects the correlation between spatial and temporal information. To alleviate these limitations, we propose a novel Temporal Adaptive RGBT Tracking framework, named as TATrack. TATrack has a spatio-temporal two-stream structure and captures temporal information by an online updated template, where the two-stream structure refers to the multi-modal feature extraction and cross-modal interaction for the initial template and the online update template respectively. TATrack contributes to comprehensively exploit spatio-temporal information and multi-modal information for target localization. In addition, we design a spatio-temporal interaction (STI) mechanism that bridges two branches and enables cross-modal interaction to span longer time scales. Extensive experiments on three popular RGBT tracking benchmarks show that our method achieves state-of-the-art performance, while running at real-time speed.

arxiv情報

著者 Hongyu Wang,Xiaotao Liu,Yifan Li,Meng Sun,Dian Yuan,Jing Liu
発行日 2024-01-02 15:20:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク