要約
堅牢なマルチモーダル機能表現の開発は、オブジェクト追跡パフォーマンスを強化するために重要です。
この目的を追求するために、視覚オブジェクトの追跡を3つの異なるレベルに切り離すことにより、融合パラダイムの影響を調査し、それによってその後の処理を促進することにより、融合パラダイムの影響を調査する、この目的を追求するために、紹介されます。
当初、RGBと熱モダリティの間の有意な矛盾に関連する機能学習に関連する課題を克服するために、知識蒸留学習に基づくプラグアンドプレイのピクセルレベル生成モジュール(PGM)が提案されています。
このモジュールはXモダリティを効果的に生成し、2つのパターン間のギャップを埋めながら、ノイズ干渉を最小限に抑えます。
その後、サンプルの特徴表現を最適化し、クロスモーダル相互作用を促進するために、機能レベルの相互作用モジュール(FIM)が導入され、混合特徴インタラクショントランスと空間的寸法の特徴翻訳戦略を統合します。
最後に、不足しているインスタンス機能によって引き起こされるランダムドリフトに対処するために、意思決定レベルの洗練モジュール(DRM)と呼ばれる柔軟なオンライン最適化戦略が提案されており、光学フローと洗練メカニズムが組み込まれています。
X-NETの有効性は、3つのベンチマークでの実験を通じて検証され、最先端のトラッカーに対する優位性を示しています。
特に、X-NETは、それぞれ正確なレートと成功率の平均で0.47%/1.2%のパフォーマンスの向上を達成します。
さらに、研究コンテンツ、データ、およびコードは、https://github.com/dzsyunnan/xnetで公開されることを誓約されています。
要約(オリジナル)
Developing robust multi-modal feature representations is crucial for enhancing object tracking performance. In pursuit of this objective, a novel X Modality Assisting Network (X-Net) is introduced, which explores the impact of the fusion paradigm by decoupling visual object tracking into three distinct levels, thereby facilitating subsequent processing. Initially, to overcome the challenges associated with feature learning due to significant discrepancies between RGB and thermal modalities, a plug-and-play pixel-level generation module (PGM) based on knowledge distillation learning is proposed. This module effectively generates the X modality, bridging the gap between the two patterns while minimizing noise interference. Subsequently, to optimize sample feature representation and promote cross-modal interactions, a feature-level interaction module (FIM) is introduced, integrating a mixed feature interaction transformer and a spatial dimensional feature translation strategy. Finally, to address random drifting caused by missing instance features, a flexible online optimization strategy called the decision-level refinement module (DRM) is proposed, which incorporates optical flow and refinement mechanisms. The efficacy of X-Net is validated through experiments on three benchmarks, demonstrating its superiority over state-of-the-art trackers. Notably, X-Net achieves performance gains of 0.47%/1.2% in the average of precise rate and success rate, respectively. Additionally, the research content, data, and code are pledged to be made publicly accessible at https://github.com/DZSYUNNAN/XNet.
arxiv情報
著者 | Zhaisheng Ding,Haiyan Li,Ruichao Hou,Yanyu Liu,Shidong Xie |
発行日 | 2025-02-24 15:06:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google