Predicting the Best of N Visual Trackers

要約

SOTA ビジュアル トラッカーのパフォーマンスは、さまざまなビデオ属性やデータセット間で驚くほど大きく異なることがわかりました。
すべての追跡属性とデータセットにわたって、単一のトラッカーが常に最高のパフォーマンスを発揮することはありません。
このギャップを埋めるために、特定のビデオ シーケンスについて、BofN メタ トラッカーと呼ばれる「N トラッカーのベスト」を予測します。
その中核となるトラッキング パフォーマンス予測ネットワーク (TP2N) は、わずか数個の初期フレームを使用して、特定のビデオ シーケンスに対して予測された最高のパフォーマンスのビジュアル トラッカーを選択します。
また、定期的な時間間隔の後に最高のパフォーマーを予測し続けるフレームレベルの BofN メタトラッカーも導入します。
TP2N は、自己教師あり学習アーキテクチャである MocoV2、SwAv、BT、DINO に基づいています。
実験では、バックボーンとして ViT-S を備えた DINO が最高のパフォーマンスを発揮することが示されています。
ビデオレベルの BofN メタトラッカーは、LaSOT、TrackingNet、GOT-10K、VOT2019、VOT2021、VOT2022、UAV123、OTB100、および WebUAV-3M の 9 つの標準ベンチマークで既存の SOTA トラッカーを大幅に上回ります。
フレームレベルの BofN メタトラッカーが長いシーケンス内の追跡シナリオの変化を効果的に処理することで、さらなる改善が達成されます。
たとえば、GOT-10k では、BofN メタトラッカーの平均オーバーラップは、ビデオ レベル設定とフレーム レベル設定でそれぞれ 88.7% と 91.1% です。
最もパフォーマンスの高いトラッカーである RTS は、85.20% の AO を達成します。
VOT2022 では、BofN の予想平均オーバーラップは 67.88%、ビデオおよびフレーム レベル設定では 70.98% であり、これに対して最もパフォーマンスの高い ARTrack の 64.12% と比較されます。
この研究では、プロトコルに従って、一般的に使用されるすべてのベンチマークにおける競合追跡手法の広範な評価も示しています。
コード、トレーニングされたモデル、および結果は、https://github.com/BasitAlawode/Best_of_N_Trackers でまもなく公開される予定です。

要約(オリジナル)

We observe that the performance of SOTA visual trackers surprisingly strongly varies across different video attributes and datasets. No single tracker remains the best performer across all tracking attributes and datasets. To bridge this gap, for a given video sequence, we predict the ‘Best of the N Trackers’, called the BofN meta-tracker. At its core, a Tracking Performance Prediction Network (TP2N) selects a predicted best performing visual tracker for the given video sequence using only a few initial frames. We also introduce a frame-level BofN meta-tracker which keeps predicting best performer after regular temporal intervals. The TP2N is based on self-supervised learning architectures MocoV2, SwAv, BT, and DINO; experiments show that the DINO with ViT-S as a backbone performs the best. The video-level BofN meta-tracker outperforms, by a large margin, existing SOTA trackers on nine standard benchmarks – LaSOT, TrackingNet, GOT-10K, VOT2019, VOT2021, VOT2022, UAV123, OTB100, and WebUAV-3M. Further improvement is achieved by the frame-level BofN meta-tracker effectively handling variations in the tracking scenarios within long sequences. For instance, on GOT-10k, BofN meta-tracker average overlap is 88.7% and 91.1% with video and frame-level settings respectively. The best performing tracker, RTS, achieves 85.20% AO. On VOT2022, BofN expected average overlap is 67.88% and 70.98% with video and frame level settings, compared to the best performing ARTrack, 64.12%. This work also presents an extensive evaluation of competitive tracking methods on all commonly used benchmarks, following their protocols. The code, the trained models, and the results will soon be made publicly available on https://github.com/BasitAlawode/Best_of_N_Trackers.

arxiv情報

著者 Basit Alawode,Sajid Javed,Arif Mahmood,Jiri Matas
発行日 2024-07-22 15:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク