要約
各オブジェクトを正確に区別することは、マルチオブジェクト追跡 (MOT) アルゴリズムの基本的な目標です。
しかし、この目標を達成することは依然として困難なままであり、その主な理由は次のとおりです。 (i) 遮蔽されたオブジェクトを含む混雑したシーンでは、オブジェクト境界ボックスの重なりが大きいため、近くに配置されたオブジェクト間の混乱が生じます。
それにもかかわらず、人間は 2D ビデオを観察するときに、シーン内の要素の奥行きを自然に認識します。
これにヒントを得て、オブジェクトの境界ボックスがカメラ平面上で近い場合でも、深さの次元で区別できるため、オブジェクトの 3D 認識を確立できます。
(ii) カメラの動きが急速に不規則であるビデオの場合、オブジェクトの位置が突然変化すると、ID が切り替わる可能性があります。
ただし、カメラの姿勢がわかっていれば、線形運動モデルの誤差を補正できます。
この論文では、(i) シーン深度マップ \textit{end-to-end} の検出と推定、(ii) カメラ姿勢推定による不規則なカメラの動きの補償を実現する \textit{DepthMOT} を提案します。
広範な実験により、VisDrone-MOT および UAVDT データセットにおける DepthMOT の優れたパフォーマンスが実証されました。
コードは \url{https://github.com/JackWoo0831/DepthMOT} で入手できます。
要約(オリジナル)
Accurately distinguishing each object is a fundamental goal of Multi-object tracking (MOT) algorithms. However, achieving this goal still remains challenging, primarily due to: (i) For crowded scenes with occluded objects, the high overlap of object bounding boxes leads to confusion among closely located objects. Nevertheless, humans naturally perceive the depth of elements in a scene when observing 2D videos. Inspired by this, even though the bounding boxes of objects are close on the camera plane, we can differentiate them in the depth dimension, thereby establishing a 3D perception of the objects. (ii) For videos with rapidly irregular camera motion, abrupt changes in object positions can result in ID switches. However, if the camera pose are known, we can compensate for the errors in linear motion models. In this paper, we propose \textit{DepthMOT}, which achieves: (i) detecting and estimating scene depth map \textit{end-to-end}, (ii) compensating the irregular camera motion by camera pose estimation. Extensive experiments demonstrate the superior performance of DepthMOT in VisDrone-MOT and UAVDT datasets. The code will be available at \url{https://github.com/JackWoo0831/DepthMOT}.
arxiv情報
著者 | Jiapeng Wu,Yichen Liu |
発行日 | 2024-04-08 13:39:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google