要約
既存のビジュアル オブジェクト トラッキング (VOT) は、最初のフレームのターゲット領域のみをテンプレートとして取得します。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、急速に変化する混雑したシーンでは追跡が必然的に失敗します。
この目的のために、プログレッシブ コンテキスト エンコーディング トランスフォーマー トラッカー (ProContEXT) を使用して追跡フレームワークを刷新しました。これは、空間的および時間的コンテキストを首尾一貫して利用して、オブジェクトの動きの軌跡を予測します。
具体的には、ProContEXT はコンテキスト認識自己注意モジュールを活用して空間的および時間的コンテキストをエンコードし、マルチスケールの静的および動的テンプレートを改良および更新して、正確な追跡を徐々に実行します。
空間コンテキストと時間コンテキストの間の補完を探り、トランスフォーマー ベースのトラッカーのマルチ コンテキスト モデリングへの新しい道筋を示します。
さらに、ProContEXT は、計算の複雑さを軽減するために、トークンのプルーニング手法を改訂しました。
GOT-10k や TrackingNet などの一般的なベンチマーク データセットでの広範な実験は、提案された ProContEXT が最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Existing Visual Object Tracking (VOT) only takes the target area in the first frame as a template. This causes tracking to inevitably fail in fast-changing and crowded scenes, as it cannot account for changes in object appearance between frames. To this end, we revamped the tracking framework with Progressive Context Encoding Transformer Tracker (ProContEXT), which coherently exploits spatial and temporal contexts to predict object motion trajectories. Specifically, ProContEXT leverages a context-aware self-attention module to encode the spatial and temporal context, refining and updating the multi-scale static and dynamic templates to progressively perform accurate tracking. It explores the complementary between spatial and temporal context, raising a new pathway to multi-context modeling for transformer-based trackers. In addition, ProContEXT revised the token pruning technique to reduce computational complexity. Extensive experiments on popular benchmark datasets such as GOT-10k and TrackingNet demonstrate that the proposed ProContEXT achieves state-of-the-art performance.
arxiv情報
著者 | Jin-Peng Lan,Zhi-Qi Cheng,Jun-Yan He,Chenyang Li,Bin Luo,Xu Bao,Wangmeng Xiang,Yifeng Geng,Xuansong Xie |
発行日 | 2022-10-27 14:47:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google