MapTrack: Tracking in the Map

要約

マルチオブジェクト追跡 (MOT) は、各ターゲットに対して安定した中断のない軌道を維持することを目的としています。
最先端のアプローチのほとんどは、まず各フレーム内のオブジェクトを検出し、次に動きモデルと外観の類似性を使用して、新しい検出と既存のトラックの間のデータ関連付けを実装します。
満足のいく結果が得られたにもかかわらず、オクルージョンと密集により検出の欠落や歪みが容易に発生し、その後、欠落や誤った関連付けが発生する可能性があります。
このペーパーでは、まず古典的なトラッカー DeepSORT を再検討します。混雑したシーンや遮蔽されたシーンで検出が利用できない場合や品質が低い場合に、予測の信頼性を高めることで、混雑やオクルージョンに対する堅牢性を大幅に強化します。
具体的には、確率マップ、予測マップ、共分散適応カルマン フィルターという 3 つの軽量のプラグアンドプレイ アルゴリズムで構成される新しいフレームワークを提案します。
確率マップは、未検出のオブジェクトが本当に視界から消えたのか (画像から消えたり、建物に入ったりしたのか)、それともオクルージョンやその他の理由により一時的に検出されなくなっただけなのかを識別します。
まだ確率マッ​​プ内にある未検出のターゲットの軌道は、状態推定によって直接拡張されます。
予測マップは物体が群衆の中にあるかどうかを判断し、観測値の重大な変形が発生した場合には観測値よりも状態推定を優先します。これは共分散適応カルマン フィルターによって実現されます。
MapTrack と名付けられた提案手法は、MOT17 や MOT20 などの一般的なマルチオブジェクト追跡ベンチマークで最先端の結果を達成します。
優れたパフォーマンスにもかかわらず、私たちの手法はシンプルでオンラインかつリアルタイムのままです。
コードは後でオープンソース化される予定です。

要約(オリジナル)

Multi-Object Tracking (MOT) aims to maintain stable and uninterrupted trajectories for each target. Most state-of-the-art approaches first detect objects in each frame and then implement data association between new detections and existing tracks using motion models and appearance similarities. Despite achieving satisfactory results, occlusion and crowds can easily lead to missing and distorted detections, followed by missing and false associations. In this paper, we first revisit the classic tracker DeepSORT, enhancing its robustness over crowds and occlusion significantly by placing greater trust in predictions when detections are unavailable or of low quality in crowded and occluded scenes. Specifically, we propose a new framework comprising of three lightweight and plug-and-play algorithms: the probability map, the prediction map, and the covariance adaptive Kalman filter. The probability map identifies whether undetected objects have genuinely disappeared from view (e.g., out of the image or entered a building) or are only temporarily undetected due to occlusion or other reasons. Trajectories of undetected targets that are still within the probability map are extended by state estimations directly. The prediction map determines whether an object is in a crowd, and we prioritize state estimations over observations when severe deformation of observations occurs, accomplished through the covariance adaptive Kalman filter. The proposed method, named MapTrack, achieves state-of-the-art results on popular multi-object tracking benchmarks such as MOT17 and MOT20. Despite its superior performance, our method remains simple, online, and real-time. The code will be open-sourced later.

arxiv情報

著者 Fei Wang,Ruohui Zhang,Chenglin Chen,Min Yang,Yun Bai
発行日 2024-02-20 12:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク