Looking Beyond Two Frames: End-to-End Multi-Object Tracking Using Spatial and Temporal Transformers

要約

ビデオシーケンス中の時系列に変化する不特定多数の物体を追跡することは、この分野における最近の進歩にもかかわらず、依然として課題となっています。既存のアプローチのほとんどは、長期的な時間情報を無視していることもあり、オクルージョンのような複数オブジェクトの追跡の課題を適切に処理することができません。これらの欠点に対処するために、我々はMO3TRを発表します。これは、真のエンドツーエンドTransformerベースのオンライン多物体追跡(MOT)フレームワークで、明示的なデータ関連付けモジュールやヒューリスティックを必要とせずに、オクルージョン、トラックの開始と終了を扱うように学習するものです。MO3TRは、空間トランスフォーマーと時間トランスフォーマーを組み合わせて、オブジェクトの相互作用を長期的な時間埋め込みに符号化し、入力データと一緒に再帰的にその情報を用いて、追跡されるすべてのオブジェクトの状態を時間経過とともに推定する。空間的注意のメカニズムにより、我々のフレームワークは全てのオブジェクトと測定対象との間の暗黙の表現を学習することができ、一方、時間的注意のメカニズムは過去の情報の特定の部分に焦点を当て、我々のアプローチが複数のフレームにわたるオクルージョンを解決することを可能にする。我々の実験はこの新しいアプローチの可能性を示し、いくつかの一般的なマルチオブジェクト追跡ベンチマークにおいて、複数のMOTメトリクスで現在の最先端と同等以上の結果を達成した。

要約(オリジナル)

Tracking a time-varying indefinite number of objects in a video sequence over time remains a challenge despite recent advances in the field. Most existing approaches are not able to properly handle multi-object tracking challenges such as occlusion, in part because they ignore long-term temporal information. To address these shortcomings, we present MO3TR: a truly end-to-end Transformer-based online multi-object tracking (MOT) framework that learns to handle occlusions, track initiation and termination without the need for an explicit data association module or any heuristics. MO3TR encodes object interactions into long-term temporal embeddings using a combination of spatial and temporal Transformers, and recursively uses the information jointly with the input data to estimate the states of all tracked objects over time. The spatial attention mechanism enables our framework to learn implicit representations between all the objects and the objects to the measurements, while the temporal attention mechanism focuses on specific parts of past information, allowing our approach to resolve occlusions over multiple frames. Our experiments demonstrate the potential of this new approach, achieving results on par with or better than the current state-of-the-art on multiple MOT metrics for several popular multi-object tracking benchmarks.

arxiv情報

著者 Tianyu Zhu,Markus Hiller,Mahsa Ehsanpour,Rongkai Ma,Tom Drummond,Ian Reid,Hamid Rezatofighi
発行日 2022-10-07 16:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク