MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking

要約

MOTR のようなエンドツーエンドのマルチオブジェクト トラッカーは、シンプルさの利点を享受していますが、検出と関連付けの間の矛盾に深刻な問題を抱えており、結果として満足のいく収束ダイナミクスが得られません。
MOTRv2 はこの問題に部分的に対処していますが、支援のために追加の検出ネットワークが必要です。
この研究では、この競合がトレーニング中の検出クエリと追跡クエリの間の不公平なラベル割り当てから生じていることを最初に明らかにしました。これらの検出クエリはターゲットを認識し、追跡クエリはそれらを関連付けます。
この観察に基づいて、開発されたリリースフェッチ監視戦略を使用してラベル割り当てプロセスのバランスをとる MOTRv3 を提案します。
この戦略では、ラベルは最初に検出のために解放され、関連付けのために徐々にフェッチバックされます。
さらに、擬似ラベル蒸留とトラック グループのノイズ除去という名前の別の 2 つの戦略は、検出と関連付けの監視をさらに改善するために設計されています。
推論中に追加の検出ネットワークの支援なしで、MOTRv3 は、MOT17、DanceTrack などのさまざまなベンチマークにわたって優れたパフォーマンスを達成します。

要約(オリジナル)

Although end-to-end multi-object trackers like MOTR enjoy the merits of simplicity, they suffer from the conflict between detection and association seriously, resulting in unsatisfactory convergence dynamics. While MOTRv2 partly addresses this problem, it demands an additional detection network for assistance. In this work, we serve as the first to reveal that this conflict arises from the unfair label assignment between detect queries and track queries during training, where these detect queries recognize targets and track queries associate them. Based on this observation, we propose MOTRv3, which balances the label assignment process using the developed release-fetch supervision strategy. In this strategy, labels are first released for detection and gradually fetched back for association. Besides, another two strategies named pseudo label distillation and track group denoising are designed to further improve the supervision for detection and association. Without the assistance of an extra detection network during inference, MOTRv3 achieves impressive performance across diverse benchmarks, e.g., MOT17, DanceTrack.

arxiv情報

著者 En Yu,Tiancai Wang,Zhuoling Li,Yuang Zhang,Xiangyu Zhang,Wenbing Tao
発行日 2023-05-23 17:40:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク