Beyond SOT: It’s Time to Track Multiple Generic Objects at Once

要約

Generic Object Tracking (GOT) は、ビデオの最初のフレームの境界ボックスによって指定されたターゲット オブジェクトを追跡する問題です。
このタスクは過去数十年で多くの注目を集めてきましたが、研究者はほぼ独占的に単一のオブジェクト設定に焦点を合わせてきました。
マルチオブジェクト GOT は適用範囲が広く、実際のアプリケーションでより魅力的です。
この問題に対する研究の関心の欠如は、適切なベンチマークがないことに起因すると考えています。
この作業では、シーケンスごとに複数の注釈付きターゲット オブジェクトを含む新しい大規模 GOT ベンチマーク LaGOT を紹介します。
私たちのベンチマークにより、研究者は GOT の残りの重要な課題に取り組むことができ、複数のオブジェクトを同時に追跡することで堅牢性を高め、計算量を削減することができます。
さらに、共有計算により複数のオブジェクトの共同処理が可能な Transformer ベースの GOT トラッカー TaMOS を提案します。
TaMOs は、各オブジェクトを個別に追跡する場合と比較して、10 個の同時オブジェクトの場合に実行時間を 4 倍高速化し、新しいベンチマークで既存の単一オブジェクト トラッカーよりも優れています。
最後に、TaMOs は単一オブジェクトの GOT データセットで非常に競争力のある結果を達成し、84.4% の成功率 AUC で TrackingNet に新しい最先端を設定します。
ベンチマーク、コード、トレーニング済みモデルは、一般公開されます。

要約(オリジナル)

Generic Object Tracking (GOT) is the problem of tracking target objects, specified by bounding boxes in the first frame of a video. While the task has received much attention in the last decades, researchers have almost exclusively focused on the single object setting. Multi-object GOT benefits from a wider applicability, rendering it more attractive in real-world applications. We attribute the lack of research interest into this problem to the absence of suitable benchmarks. In this work, we introduce a new large-scale GOT benchmark, LaGOT, containing multiple annotated target objects per sequence. Our benchmark allows researchers to tackle key remaining challenges in GOT, aiming to increase robustness and reduce computation through joint tracking of multiple objects simultaneously. Furthermore, we propose a Transformer-based GOT tracker TaMOS capable of joint processing of multiple objects through shared computation. TaMOs achieves a 4x faster run-time in case of 10 concurrent objects compared to tracking each object independently and outperforms existing single object trackers on our new benchmark. Finally, TaMOs achieves highly competitive results on single-object GOT datasets, setting a new state-of-the-art on TrackingNet with a success rate AUC of 84.4%. Our benchmark, code, and trained models will be made publicly available.

arxiv情報

著者 Christoph Mayer,Martin Danelljan,Ming-Hsuan Yang,Vittorio Ferrari,Luc Van Gool,Alina Kuznetsova
発行日 2022-12-22 17:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク