ARTrackV2: Prompting Autoregressive Tracker Where to Look and How to Describe


ARTrackV2 は、トラッキングの 2 つの重要な側面、つまり、ビデオ フレーム全体でターゲット オブジェクトをどこを見るか (位置特定) とどのように記述するか (外観分析) を決定するかを統合します。
ARTrackV2 は、前任者の基盤を基盤として、オブジェクトの軌道を「読み出し」、自己回帰的にその外観を「語り直す」ための統合生成フレームワークを導入することで概念を拡張しています。
さらに、ARTrackV2 はその効率性とシンプルさでも際立っており、効率の悪いフレーム内自動回帰や外観更新用の手動調整パラメータを不要にします。
ARTrackV2 は、そのシンプルさにもかかわらず、顕著な効率向上を実証しながら、一般的なベンチマーク データセットで最先端のパフォーマンスを実現します。
特に、ARTrackV2 は、GOT-10k で 79.5\% の AO スコア、TrackingNet で 86.1\% の AUC を達成しながら、ARTrack よりも 3.6 ドル \倍$ 高速です。


We present ARTrackV2, which integrates two pivotal aspects of tracking: determining where to look (localization) and how to describe (appearance analysis) the target object across video frames. Building on the foundation of its predecessor, ARTrackV2 extends the concept by introducing a unified generative framework to ‘read out’ object’s trajectory and ‘retell’ its appearance in an autoregressive manner. This approach fosters a time-continuous methodology that models the joint evolution of motion and visual features, guided by previous estimates. Furthermore, ARTrackV2 stands out for its efficiency and simplicity, obviating the less efficient intra-frame autoregression and hand-tuned parameters for appearance updates. Despite its simplicity, ARTrackV2 achieves state-of-the-art performance on prevailing benchmark datasets while demonstrating remarkable efficiency improvement. In particular, ARTrackV2 achieves AO score of 79.5\% on GOT-10k, and AUC of 86.1\% on TrackingNet while being $3.6 \times$ faster than ARTrack. The code will be released.


著者 Yifan Bai,Zeyang Zhao,Yihong Gong,Xing Wei
発行日 2023-12-28 17:08:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク