Samba: Synchronized Set-of-Sequences Modeling for Multiple Object Tracking


調整されたダンス パフォーマンス、チーム スポーツ、ダイナミックな動物のグループなど、複雑なシナリオでの複数のオブジェクトの追跡には、独特の課題が伴います。
この目的を達成するために、各トラックレットのモデル化に使用される複数の選択的な状態空間を同期させることによって、複数のトラックレットを共同処理するように設計された新しい線形時間シーケンス セット モデルである Samba を紹介します。
Samba は、トラックレット間で同期された長期メモリ表現を維持しながら、各シーケンスの将来のトラック クエリを自己回帰的に予測します。
Samba を伝播追跡フレームワークに統合することで、長距離依存関係、トラックレットの相互依存関係、時間的オクルージョンなどの前述の問題に効果的に対処する最初のトラッカーである SambaMOTR を提案します。
さらに、不確実な観測 (MaskObs) を処理するための効果的な手法と、SambaMOTR をより長いシーケンスに拡張するための効率的なトレーニング レシピを紹介します。
SambaMOTR は、追跡されるオブジェクト間の長距離の依存関係と相互作用をモデル化することで、手動で作成されたヒューリスティックを使用せずに、オクルージョンを通じてオブジェクトを正確に追跡することを暗黙的に学習します。
私たちのアプローチは、DanceTrack、BFT、SportsMOT データセットに関するこれまでの最先端技術を大幅に上回っています。


Multiple object tracking in complex scenarios – such as coordinated dance performances, team sports, or dynamic animal groups – presents unique challenges. In these settings, objects frequently move in coordinated patterns, occlude each other, and exhibit long-term dependencies in their trajectories. However, it remains a key open research question on how to model long-range dependencies within tracklets, interdependencies among tracklets, and the associated temporal occlusions. To this end, we introduce Samba, a novel linear-time set-of-sequences model designed to jointly process multiple tracklets by synchronizing the multiple selective state-spaces used to model each tracklet. Samba autoregressively predicts the future track query for each sequence while maintaining synchronized long-term memory representations across tracklets. By integrating Samba into a tracking-by-propagation framework, we propose SambaMOTR, the first tracker effectively addressing the aforementioned issues, including long-range dependencies, tracklet interdependencies, and temporal occlusions. Additionally, we introduce an effective technique for dealing with uncertain observations (MaskObs) and an efficient training recipe to scale SambaMOTR to longer sequences. By modeling long-range dependencies and interactions among tracked objects, SambaMOTR implicitly learns to track objects accurately through occlusions without any hand-crafted heuristics. Our approach significantly surpasses prior state-of-the-art on the DanceTrack, BFT, and SportsMOT datasets.


著者 Mattia Segu,Luigi Piccinelli,Siyuan Li,Yung-Hsu Yang,Bernt Schiele,Luc Van Gool
発行日 2024-10-02 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク