ビデオ データとアルゴリズムは、マルチオブジェクト トラッキング (MOT) の進歩を推進してきました。
既存の MOT データセットはオクルージョンと外観の類似性に重点を置いていますが、複雑な動きのパターンは広範囲に存在しますが、見落とされています。
この問題に対処するために、複雑な動きを強調するために BEE24 と呼ばれる新しいデータセットを導入します。
ID 関連アルゴリズムは、長い間 MOT 研究の焦点となってきました。
既存のトラッカーは、単一特徴パラダイム (動きまたは外観特徴のいずれかに基づく) とシリアル パラダイム (1 つの特徴がセカンダリとして機能し、もう 1 つがプライマリとして機能する) の 2 つの関連付けパラダイムに分類できます。
この論文では、並列パラダイムを提案し、それを実装するための Two rOund Parallel matchIng Mechanism (TOPIC) を紹介します。
TOPIC は動きと外観の両方の特徴を活用し、動きのレベルに基づいて適切な方を割り当てメトリックとして適応的に選択できます。
さらに、外観特徴の埋め込みを再構築するためのアテンションベースの外観再構築モジュール (AARM) を提供し、外観特徴の表現を強化します。
包括的な実験により、私たちのアプローチが 4 つの公開データセットと BEE24 で最先端のパフォーマンスを達成することが示されました。
さらに、BEE24 は、既存のトラッカーに対し、複雑な動きをする複数の似たような小さな物体を長期間にわたって追跡するという課題を抱えています。これは、養蜂やドローンの群れ監視などの現実世界のアプリケーションでは重要です。
特に、私たちが提案する並列パラダイムは、既存の関連付けパラダイムのパフォーマンスを大幅に上回り、たとえば、単一特徴関連付けパラダイムと比較して偽陰性を 6% から 81% 削減します。
この研究で導入されたデータセットと関連付けのパラダイムは、MOT 分野を前進させるための新たな視点を提供します。
ソース コードとデータセットは https://github.com/holmescao/TOPICTrack で入手できます。
Video data and algorithms have been driving advances in multi-object tracking (MOT). While existing MOT datasets focus on occlusion and appearance similarity, complex motion patterns are widespread yet overlooked. To address this issue, we introduce a new dataset called BEE24 to highlight complex motions. Identity association algorithms have long been the focus of MOT research. Existing trackers can be categorized into two association paradigms: single-feature paradigm (based on either motion or appearance feature) and serial paradigm (one feature serves as secondary while the other is primary). However, these paradigms are incapable of fully utilizing different features. In this paper, we propose a parallel paradigm and present the Two rOund Parallel matchIng meChanism (TOPIC) to implement it. The TOPIC leverages both motion and appearance features and can adaptively select the preferable one as the assignment metric based on motion level. Moreover, we provide an Attention-based Appearance Reconstruction Module (AARM) to reconstruct appearance feature embeddings, thus enhancing the representation of appearance features. Comprehensive experiments show that our approach achieves state-of-the-art performance on four public datasets and BEE24. Moreover, BEE24 challenges existing trackers to track multiple similar-appearing small objects with complex motions over long periods, which is critical in real-world applications such as beekeeping and drone swarm surveillance. Notably, our proposed parallel paradigm surpasses the performance of existing association paradigms by a large margin, e.g., reducing false negatives by 6% to 81% compared to the single-feature association paradigm. The introduced dataset and association paradigm in this work offer a fresh perspective for advancing the MOT field. The source code and dataset are available at https://github.com/holmescao/TOPICTrack.
著者 | Xiaoyan Cao,Yiyao Zheng,Yao Yao,Huapeng Qin,Xiaoyu Cao,Shihui Guo |
発行日 | 2025-01-02 07:36:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google