Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for Vision-Language Tracking

要約

単一オブジェクト追跡は、初期状態を考慮して、ビデオ シーケンス内の 1 つの特定のターゲットを特定することを目的としています。
従来のトラッカーは視覚的な手がかりのみに依存しており、外観の変化、曖昧さ、気が散るなどの課題に対処する能力が制限されていました。
したがって、言語記述を組み込んで高レベルのセマンティクスを直接提供し、追跡パフォーマンスを向上させる、ビジョン言語 (VL) 追跡が有望なアプローチとして浮上しています。
しかし、現在の VL トラッカーは、特徴抽出に既製のバックボーンに大きく依存していること、非効率的な VL 融合設計、VL 関連の損失関数がないことなどの制限があるため、VL 学習の力を十分に活用できていません。
したがって、VL 追跡のターゲット中心のセマンティクスを段階的に探索する新しいトラッカーを紹介します。
具体的には、VL 追跡用の最初の同期学習バックボーン (SLB) を提案します。これは、ターゲット拡張モジュール (TEM) とセマンティック認識モジュール (SAM) の 2 つの新しいモジュールで構成されます。
これらのモジュールにより、トラッカーはターゲット関連のセマンティクスを認識し、視覚的モダリティとテキストモダリティの両方のコンテキストを同じペースで理解できるようになり、さまざまなセマンティクスレベルでの VL 特徴の抽出と融合が容易になります。
さらに、マルチモーダル表現学習をさらに強化するために、密なマッチング損失を考案しました。
VL 追跡データセットに関する広範な実験により、私たちの手法の優位性と有効性が実証されました。

要約(オリジナル)

Single object tracking aims to locate one specific target in video sequences, given its initial state. Classical trackers rely solely on visual cues, restricting their ability to handle challenges such as appearance variations, ambiguity, and distractions. Hence, Vision-Language (VL) tracking has emerged as a promising approach, incorporating language descriptions to directly provide high-level semantics and enhance tracking performance. However, current VL trackers have not fully exploited the power of VL learning, as they suffer from limitations such as heavily relying on off-the-shelf backbones for feature extraction, ineffective VL fusion designs, and the absence of VL-related loss functions. Consequently, we present a novel tracker that progressively explores target-centric semantics for VL tracking. Specifically, we propose the first Synchronous Learning Backbone (SLB) for VL tracking, which consists of two novel modules: the Target Enhance Module (TEM) and the Semantic Aware Module (SAM). These modules enable the tracker to perceive target-related semantics and comprehend the context of both visual and textual modalities at the same pace, facilitating VL feature extraction and fusion at different semantic levels. Moreover, we devise the dense matching loss to further strengthen multi-modal representation learning. Extensive experiments on VL tracking datasets demonstrate the superiority and effectiveness of our methods.

arxiv情報

著者 Jiawei Ge,Xiangmei Chen,Jiuxin Cao,Xuelin Zhu,Bo Liu
発行日 2024-02-19 10:32:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク