Simple Cues Lead to a Strong Multi-Object Tracker

要約

長い間、Multi-Object Trackingの最も一般的なパラダイムは、まずオブジェクトを検出し、次にビデオフレーム上で関連付けるTracking-by-Detection (TbD)であった。関連付けのために、ほとんどのモデルは動きと外観の手がかりに依存しています。しかし、アテンションに基づく最近のアプローチは、学習データと複雑なフレームワークの必要性がますます高まっています。我々は、1)いくつかの重要な設計上の選択を行えば、わずかな学習データから強力な手がかりを得ることができる、2)これらの強力な手がかりがあれば、標準的なハンガリー語マッチングに基づく関連付けで十分な結果を得ることができる、と主張する。我々の主な洞察は、標準的な再識別ネットワークが外観に基づく追跡を得意とするための主要な構成要素を特定することである。我々は、その失敗例を広範囲に分析し、我々の外観特徴と単純な動作モデルの組み合わせが、強力な追跡結果をもたらすことを示す。本モデルは、MOT17とMOT20のデータセットにおいて、IDF1で最大5.4pp、HOTAで最大4.4ppと、従来の最先端トラッカーを上回る性能を達成しました。論文アクセプト後、コードとモデルを公開する予定です。

要約(オリジナル)

For a long time, the most common paradigm in Multi-Object Tracking was tracking-by-detection (TbD), where objects are first detected and then associated over video frames. For association, most models resource to motion and appearance cues. While still relying on these cues, recent approaches based on, e.g., attention have shown an ever-increasing need for training data and overall complex frameworks. We claim that 1) strong cues can be obtained from little amounts of training data if some key design choices are applied, 2) given these strong cues, standard Hungarian matching-based association is enough to obtain impressive results. Our main insight is to identify key components that allow a standard reidentification network to excel at appearance-based tracking. We extensively analyze its failure cases and show that a combination of our appearance features with a simple motion model leads to strong tracking results. Our model achieves state-of-the-art performance on MOT17 and MOT20 datasets outperforming previous state-of-the-art trackers by up to 5.4pp in IDF1 and 4.4pp in HOTA. We will release the code and models after the paper’s acceptance.

arxiv情報

著者 Jenny Seidenschwarz,Guillem Braso,Ismail Elezi,Laura Leal-Taixe
発行日 2022-06-09 17:55:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク