要約
さまざまなセンサータイプがオブジェクトの外観の変動によって引き起こされる課題を克服するためにユニークな機能を貢献するため、単一オブジェクト追跡(SOT)ではマルチモーダル追跡が不可欠です。
ただし、既存の統一されたRGB-Xトラッカー(Xは深さ、イベント、または熱モダリティを表します)は、個々のRGB-X画像ペアのタスク固有のトレーニング戦略に依存するか、モダリティ適応認識の重要な重要性に対処できません。
世界アプリケーション。
この作業では、モデルとパラメーターの両方の統合、およびさまざまなマルチモーダル追跡タスクにわたる適応モダリティ差別を促進する統一された適応選択フレームワークであるUastrackを提案します。
共同RGB-Xペアでモダリティに適した認識を達成するために、モダリティラベルを識別できる識別自動セレクター(DAS)を設計し、それにより補助モダリティのデータ分布を区別します。
さらに、潜在空間のさまざまなモダリティに合わせたタスクカスタマイズされた最適化アダプター(TCOA)を提案します。
この戦略は、各モダリティの特定の特性に基づいて、ノイズの冗長性を効果的にフィルタリングし、バックグラウンド干渉を軽減します。
RGB-T、RGB-E、およびRGB-D追跡シナリオをカバーするLasher、GTOT、RGBT234、Visevent、Depthrackを含む5つのベンチマークで実施された広範な比較は、1.87Mの追加トレーニングパラメーターのみを導入することで革新的なアプローチを実現することで、革新的なアプローチを実証します。
1.95gのフロップ。
コードはhttps://github.com/wanghe/uastrackで入手できます。
要約(オリジナル)
Multi-modal tracking is essential in single-object tracking (SOT), as different sensor types contribute unique capabilities to overcome challenges caused by variations in object appearance. However, existing unified RGB-X trackers (X represents depth, event, or thermal modality) either rely on the task-specific training strategy for individual RGB-X image pairs or fail to address the critical importance of modality-adaptive perception in real-world applications. In this work, we propose UASTrack, a unified adaptive selection framework that facilitates both model and parameter unification, as well as adaptive modality discrimination across various multi-modal tracking tasks. To achieve modality-adaptive perception in joint RGB-X pairs, we design a Discriminative Auto-Selector (DAS) capable of identifying modality labels, thereby distinguishing the data distributions of auxiliary modalities. Furthermore, we propose a Task-Customized Optimization Adapter (TCOA) tailored to various modalities in the latent space. This strategy effectively filters noise redundancy and mitigates background interference based on the specific characteristics of each modality. Extensive comparisons conducted on five benchmarks including LasHeR, GTOT, RGBT234, VisEvent, and DepthTrack, covering RGB-T, RGB-E, and RGB-D tracking scenarios, demonstrate our innovative approach achieves comparative performance by introducing only additional training parameters of 1.87M and flops of 1.95G. The code will be available at https://github.com/wanghe/UASTrack.
arxiv情報
著者 | He Wang,Tianyang Xu,Zhangyong Tang,Xiao-Jun Wu,Josef Kittler |
発行日 | 2025-02-25 14:04:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google