要約
検出による追跡は、人物追跡の事実上の標準アプローチとなっています。
堅牢性を高めるために、一部のアプローチでは、外観モデルと回帰モーション オフセットを使用した再識別が組み込まれていますが、これにはコストのかかるアイデンティティ アノテーションが必要です。
この論文では、検出のみを監視しながら、動きの手がかりを利用することを提案します。これははるかに簡単です。
私たちのアルゴリズムは、2 つの異なる時点での検出ヒートマップと、2 つの画像間の 2D 動き推定を予測します。
次に、モーション推定を使用して一方のヒートマップをワープし、もう一方のヒートマップとの一貫性を強制します。
これにより、モーションの注釈を必要とせずに、モーションに必要な監視信号が提供されます。
このようにして、トレーニング中にさまざまな画像から取得した情報を結合し、特に混雑したシーンや低フレームレートのシーケンスを使用する場合の精度を高めます。
私たちのアプローチが、MOT17 および WILDTRACK データセットでのシングルビューおよびマルチビューのマルチターゲット追跡において最先端の結果をもたらすことを示します。
要約(オリジナル)
Tracking-by-detection has become the de facto standard approach to people tracking. To increase robustness, some approaches incorporate re-identification using appearance models and regressing motion offset, which requires costly identity annotations. In this paper, we propose exploiting motion clues while providing supervision only for the detections, which is much easier to do. Our algorithm predicts detection heatmaps at two different times, along with a 2D motion estimate between the two images. It then warps one heatmap using the motion estimate and enforces consistency with the other one. This provides the required supervisory signal on the motion without the need for any motion annotations. In this manner, we couple the information obtained from different images during training and increase accuracy, especially in crowded scenes and when using low frame-rate sequences. We show that our approach delivers state-of-the-art results for single- and multi-view multi-target tracking on the MOT17 and WILDTRACK datasets.
arxiv情報
著者 | Martin Engilberge,F. Wilke Grosche,Pascal Fua |
発行日 | 2024-11-25 15:13:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google