ARTrackV2: Prompting Autoregressive Tracker Where to Look and How to Describe

要約

ARTrackV2 は、トラッキングの 2 つの重要な側面、つまり、ビデオ フレーム全体でターゲット オブジェクトをどこを見るか (位置特定) とどのように記述するか (外観分析) を決定するかを統合します。
ARTrackV2 は、前任者の基盤を基盤として、オブジェクトの軌道を「読み出し」、自己回帰的にその外観を「語り直す」ための統合生成フレームワークを導入することで概念を拡張しています。
このアプローチは、以前の推定値に基づいて、動きと視覚的特徴の共同進化をモデル化する時間連続的な方法論を促進します。
さらに、ARTrackV2 はその効率性とシンプルさでも際立っており、効率の悪いフレーム内自動回帰や外観更新用の手動調整パラメータを不要にします。
ARTrackV2 は、そのシンプルさにもかかわらず、顕著な効率向上を実証しながら、一般的なベンチマーク データセットで最先端のパフォーマンスを実現します。
特に、ARTrackV2 は、GOT-10k で 79.5\% の AO スコア、TrackingNet で 86.1\% の AUC を達成しながら、ARTrack よりも 3.6 ドル \倍$ 高速です。
コードが公開されます。

要約(オリジナル)

We present ARTrackV2, which integrates two pivotal aspects of tracking: determining where to look (localization) and how to describe (appearance analysis) the target object across video frames. Building on the foundation of its predecessor, ARTrackV2 extends the concept by introducing a unified generative framework to ‘read out’ object’s trajectory and ‘retell’ its appearance in an autoregressive manner. This approach fosters a time-continuous methodology that models the joint evolution of motion and visual features, guided by previous estimates. Furthermore, ARTrackV2 stands out for its efficiency and simplicity, obviating the less efficient intra-frame autoregression and hand-tuned parameters for appearance updates. Despite its simplicity, ARTrackV2 achieves state-of-the-art performance on prevailing benchmark datasets while demonstrating remarkable efficiency improvement. In particular, ARTrackV2 achieves AO score of 79.5\% on GOT-10k, and AUC of 86.1\% on TrackingNet while being $3.6 \times$ faster than ARTrack. The code will be released.

arxiv情報

著者 Yifan Bai,Zeyang Zhao,Yihong Gong,Xing Wei
発行日 2023-12-28 17:08:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク