Transformer-based assignment decision network for multiple object tracking

要約

Data Associationは、追跡によるパラダイムに続く複数のオブジェクト追跡(MOT)メソッドの重要なコンポーネントです。
完全な軌跡を生成するために、そのような方法は、データ関連プロセスを使用して、各タイムステップ中に検出と既存のターゲットの間の割り当てを確立します。
最近のデータ関連アプローチは、多次元線形割り当てタスクまたはネットワークフロー最小化問題のいずれかを解決しようとするか、複数の仮説トラッキングを介してそれに取り組むことを試みます。
ただし、推論中に、特定のソリューションに追加の複雑さを誘導するすべてのシーケンスフレームに最適な割り当てを計算する最適化ステップが必要です。
この目的のために、この作業のコンテキストでは、推論中に明示的な最適化を必要とせずにデータ関連に取り組むトランスベースの割り当て決定ネットワーク(TADN)を導入します。
特に、TADNは、ネットワークの単一のフォワードパスで、検出とアクティブなターゲット間の割り当てペアを直接推測できます。
TADNをかなりシンプルなMOTフレームワークに統合し、効率的なエンドツーエンドトレーニングのための新しいトレーニング戦略を設計し、いくつかの一般的なベンチマーク、つまりMOT17、MOT20、UA-Detracでオンライン視覚追跡MOTのアプローチの高い可能性を実証しました。
提案されたアプローチは、閉塞処理や再識別などの重要な補助コンポーネントを欠くトラッカーとしての単純な性質にもかかわらず、ほとんどの評価メトリックで強力なパフォーマンスを示しています。
この方法の実装は、https://github.com/psaltaath/tadn-motで公開されています。

要約(オリジナル)

Data association is a crucial component for any multiple object tracking (MOT) method that follows the tracking-by-detection paradigm. To generate complete trajectories such methods employ a data association process to establish assignments between detections and existing targets during each timestep. Recent data association approaches try to solve either a multi-dimensional linear assignment task or a network flow minimization problem or tackle it via multiple hypotheses tracking. However, during inference an optimization step that computes optimal assignments is required for every sequence frame inducing additional complexity to any given solution. To this end, in the context of this work we introduce Transformer-based Assignment Decision Network (TADN) that tackles data association without the need of any explicit optimization during inference. In particular, TADN can directly infer assignment pairs between detections and active targets in a single forward pass of the network. We have integrated TADN in a rather simple MOT framework, designed a novel training strategy for efficient end-to-end training and demonstrated the high potential of our approach for online visual tracking-by-detection MOT on several popular benchmarks, i.e. MOT17, MOT20 and UA-DETRAC. Our proposed approach demonstrates strong performance in most evaluation metrics despite its simple nature as a tracker lacking significant auxiliary components such as occlusion handling or re-identification. The implementation of our method is publicly available at https://github.com/psaltaath/tadn-mot.

arxiv情報

著者 Athena Psalta,Vasileios Tsironis,Konstantinos Karantzalos
発行日 2025-05-08 13:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク