TransFiner: A Full-Scale Refinement Approach for Multiple Object Tracking

要約

複数物体追跡(MOT)は、検出と関連付けを含むタスクである。多くのトラッカーが競争力のあるパフォーマンスを達成しています。しかし、残念ながら、これらのサブタスクに関する情報交換がないため、どちらかに偏り、群衆の中の個人を追跡する際に避けられないターゲットのミスや軌道の間違いなど、複雑なシナリオで性能が低下することが多い。本論文では、MOTを後付けするためのトランスフォーマーに基づくアプローチであるTransFinerを提案する。これは、オリジナルのトラッカーとTransFinerの間のブリッジであるクエリペアに依存する汎用的なアタッチメントフレームワークである。各クエリペアは、融合デコーダを通して、特定のオブジェクトのための洗練された検出と動きの手がかりを生成する。その前に、オリジナルのトラッカーからのトラッキング結果(位置とクラス予測)の指導のもと、特徴的な位置合わせとグループラベル付けを行い、フォーカスして包括的にトラッキングのリファインメントを完了させます。実験では、MOT17ベンチマークにおいて、CenterTrackがMOTA67.8%、IDF1 64.7%からMOTA71.5%、IDF1 66.8%に向上し、我々の設計が有効であることが示されました。

要約(オリジナル)

Multiple object tracking (MOT) is the task containing detection and association. Plenty of trackers have achieved competitive performance. Unfortunately, for the lack of informative exchange on these subtasks, they are often biased toward one of the two and underperform in complex scenarios, such as the inevitable misses and mistaken trajectories of targets when tracking individuals within a crowd. This paper proposes TransFiner, a transformer-based approach to post-refining MOT. It is a generic attachment framework that depends on query pairs, the bridge between an original tracker and TransFiner. Each query pair, through the fusion decoder, produces refined detection and motion clues for a specific object. Before that, they are feature-aligned and group-labeled under the guidance of tracking results (locations and class predictions) from the original tracker, finishing tracking refinement with focus and comprehensively. Experiments show that our design is effective, on the MOT17 benchmark, we elevate the CenterTrack from 67.8% MOTA and 64.7% IDF1 to 71.5% MOTA and 66.8% IDF1.

arxiv情報

著者 Bin Sun
発行日 2022-09-02 16:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク