TransFiner: A Full-Scale Refinement Approach for Multiple Object Tracking

要約

複数オブジェクト追跡(MOT)は、検出と関連付けを含むタスクです。
多くのトラッカーが競争力のあるパフォーマンスを達成しています。
残念ながら、これらのサブタスクに関する有益な交換が不足しているため、2つのサブタスクのいずれかに偏っており、予想されるフォールスネガティブやターゲットの誤った軌道などの複雑なシナリオではパフォーマンスが低下したままになります。
この論文では、MOT用の変圧器ベースの精製後アプローチであるTransFinerを提案します。
これは、元のトラッカーからの画像と追跡結果(場所とクラスの予測)を入力として活用する一般的な添付ファイルフレームワークであり、TransFinerを強力に起動するために使用されます。
さらに、TransFinerはクエリペアに依存しています。クエリペアは、フュージョンデコーダーを介して検出とモーションのペアを生成し、包括的なトラッキングの改善を実現します。
また、さまざまな絞り込みレベルに応じてクエリペアにラベルを付けることにより、対象を絞った絞り込みを提供します。
実験によると、私たちの設計は効果的であり、MOT17ベンチマークでは、CenterTrackを67.8%MOTAおよび64.7%IDF1から71.5%MOTAおよび66.8%IDF1に引き上げています。

要約(オリジナル)

Multiple object tracking (MOT) is the task containing detection and association. Plenty of trackers have achieved competitive performance. Unfortunately, for the lack of informative exchange on these subtasks, they are often biased toward one of the two and remain underperforming in complex scenarios, such as the expected false negatives and mistaken trajectories of targets when passing each other. In this paper, we propose TransFiner, a transformer-based post-refinement approach for MOT. It is a generic attachment framework that leverages the images and tracking results (locations and class predictions) from the original tracker as inputs, which are then used to launch TransFiner powerfully. Moreover, TransFiner depends on query pairs, which produce pairs of detection and motion through the fusion decoder and achieve comprehensive tracking improvement. We also provide targeted refinement by labeling query pairs according to different refinement levels. Experiments show that our design is effective, on the MOT17 benchmark, we elevate the CenterTrack from 67.8% MOTA and 64.7% IDF1 to 71.5% MOTA and 66.8% IDF1.

arxiv情報

著者 Bin Sun,Jiale Cao
発行日 2022-07-26 15:21:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク