Tracking Objects as Pixel-wise Distributions

要約

マルチオブジェクトトラッキング(MOT)では、フレームを介してオブジェクトを検出して関連付ける必要があります。
検出された境界ボックスを介した追跡やポイントとしての追跡オブジェクトとは異なり、ピクセル単位の分布として追跡オブジェクトを提案します。
このアイデアを、トランスフォーマーベースのアーキテクチャであるP3AFormerで、ピクセル単位の伝播、予測、および関連付けを使用してインスタンス化します。
P3AFormerは、フレーム間でメッセージを渡すために、フロー情報によって導かれるピクセル単位の機能を伝播します。
さらに、P3AFormerはメタアーキテクチャを採用して、マルチスケールのオブジェクトフィーチャマップを作成します。
推論中に、ピクセル単位の予測に基づいてフレームを介してオブジェクト接続を回復するために、ピクセル単位の関連付け手順が提案されます。
P3AFormerは、MOT17ベンチマークでMOTAに関して81.2 \%を生成します。これは、すべてのトランスフォーマーネットワークの中で最初に文献で80 \%MOTAに到達しました。
P3AFormerは、MOT20およびKITTIベンチマークでも最先端のパフォーマンスを上回っています。

要約(オリジナル)

Multi-object tracking (MOT) requires detecting and associating objects through frames. Unlike tracking via detected bounding boxes or tracking objects as points, we propose tracking objects as pixel-wise distributions. We instantiate this idea on a transformer-based architecture, P3AFormer, with pixel-wise propagation, prediction, and association. P3AFormer propagates pixel-wise features guided by flow information to pass messages between frames. Furthermore, P3AFormer adopts a meta-architecture to produce multi-scale object feature maps. During inference, a pixel-wise association procedure is proposed to recover object connections through frames based on the pixel-wise prediction. P3AFormer yields 81.2\% in terms of MOTA on the MOT17 benchmark — the first among all transformer networks to reach 80\% MOTA in literature. P3AFormer also outperforms state-of-the-arts on the MOT20 and KITTI benchmarks.

arxiv情報

著者 Zelin Zhao,Ze Wu,Yueqing Zhuang,Boxun Li,Jiaya Jia
発行日 2022-07-12 13:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク