TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking

要約

現在、シーンの動きについて特に有益な情報を提供するビジュアル イベント カメラの出力で RGB モダリティを強化することにより、ビジュアル オブジェクトの追跡を改善することに強い関心が寄せられています。
ただし、既存のアプローチは、イベント データの固有の特性に適応させることなく、RGB のみの追跡用に最適化された従来の外観モデルを使用して、RGB-E 追跡のイベント特徴抽出を実行します。
この問題に対処するために、イベント データの固有の特性、つまりそのスパース性を認識した高品質の特徴表現を取得するように設計されたイベント バックボーン (プーラー) を提案します。
特に、マルチスケール プーリングは、さまざまなプーリング カーネル サイズを利用して、イベント データ内のすべてのモーション フィーチャの傾向をキャプチャするために導入されています。
派生した RGB とイベント表現の間の関連付けは、適応型相互誘導フュージョン (MGF) を実行する革新的なモジュールによって確立されます。
広範な実験結果は、VisEvent と COESOT を含む 2 つの広く使用されている RGB-E 追跡データセットにおいて、私たちの手法が最先端のトラッカーよりも大幅に優れていることを示しており、COESOT の精度と成功率はそれぞれ 4.9% と 5.2% 向上しています。

私たちのコードは https://github.com/SSSpc333/TENet で入手できます。

要約(オリジナル)

There is currently strong interest in improving visual object tracking by augmenting the RGB modality with the output of a visual event camera that is particularly informative about the scene motion. However, existing approaches perform event feature extraction for RGB-E tracking using traditional appearance models, which have been optimised for RGB only tracking, without adapting it for the intrinsic characteristics of the event data. To address this problem, we propose an Event backbone (Pooler), designed to obtain a high-quality feature representation that is cognisant of the innate characteristics of the event data, namely its sparsity. In particular, Multi-Scale Pooling is introduced to capture all the motion feature trends within event data through the utilisation of diverse pooling kernel sizes. The association between the derived RGB and event representations is established by an innovative module performing adaptive Mutually Guided Fusion (MGF). Extensive experimental results show that our method significantly outperforms state-of-the-art trackers on two widely used RGB-E tracking datasets, including VisEvent and COESOT, where the precision and success rates on COESOT are improved by 4.9% and 5.2%, respectively. Our code will be available at https://github.com/SSSpc333/TENet.

arxiv情報

著者 Pengcheng Shao,Tianyang Xu,Zhangyong Tang,Linze Li,Xiao-Jun Wu,Josef Kittler
発行日 2024-05-08 12:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク