Focus On Details: Online Multi-object Tracking with Diverse Fine-grained Representation


複数のオブジェクトの追跡 (MOT) で各ターゲットの一意の識別子を保持するには、識別表現が不可欠です。
最近の MOT メソッドの中には、バウンディング ボックス領域または中心点の特徴を ID 埋め込みとして抽出するものがあります。
無差別なコンテキスト情報の集約によって引き起こされるセマンティックなミスアライメントを効果的に軽減するために、フロー アライメント FPN (FAFPN) がマルチスケール機能アライメント集約のために提案されています。
異なる解像度の特徴マップ間でセマンティック フローを生成し、それらのピクセル位置を変換します。
さらに、マルチヘッド パーツ マスク ジェネレーター (MPMG) を提示して、位置合わせされた特徴マップに基づいてきめの細かい表現を抽出します。
MPMG の複数の並列ブランチにより、ターゲットのさまざまな部分に焦点を当てて、ラベルの監視なしでローカル マスクを生成できます。
ターゲット マスクの多様な詳細により、きめの細かい表現が容易になります。
最終的に、ポジティブ サンプルとネガティブ サンプルのバランスをとったシャッフル グループ サンプリング (SGS) トレーニング戦略の恩恵を受けて、MOT17 および MOT20 テスト セットで最先端のパフォーマンスを達成しました。
ターゲットの外観が非常に似ている DanceTrack でも、HOTA で 5.0%、IDF1 で 5.6% バイトトラックを大幅に上回りました。
広範な実験により、多様な細粒度表現が MOT で Re-ID を再び優れたものにすることが証明されています。


Discriminative representation is essential to keep a unique identifier for each target in Multiple object tracking (MOT). Some recent MOT methods extract features of the bounding box region or the center point as identity embeddings. However, when targets are occluded, these coarse-grained global representations become unreliable. To this end, we propose exploring diverse fine-grained representation, which describes appearance comprehensively from global and local perspectives. This fine-grained representation requires high feature resolution and precise semantic information. To effectively alleviate the semantic misalignment caused by indiscriminate contextual information aggregation, Flow Alignment FPN (FAFPN) is proposed for multi-scale feature alignment aggregation. It generates semantic flow among feature maps from different resolutions to transform their pixel positions. Furthermore, we present a Multi-head Part Mask Generator (MPMG) to extract fine-grained representation based on the aligned feature maps. Multiple parallel branches of MPMG allow it to focus on different parts of targets to generate local masks without label supervision. The diverse details in target masks facilitate fine-grained representation. Eventually, benefiting from a Shuffle-Group Sampling (SGS) training strategy with positive and negative samples balanced, we achieve state-of-the-art performance on MOT17 and MOT20 test sets. Even on DanceTrack, where the appearance of targets is extremely similar, our method significantly outperforms ByteTrack by 5.0% on HOTA and 5.6% on IDF1. Extensive experiments have proved that diverse fine-grained representation makes Re-ID great again in MOT.


著者 Hao Ren,Shoudong Han,Huilin Ding,Ziwen Zhang,Hongwei Wang,Faquan Wang
発行日 2023-02-28 14:16:32+00:00
arxiv_id(pdf)

cs.CV