Beyond Kalman Filters: Deep Learning-Based Filters for Improved Object Tracking


従来の検出による追跡システムは通常、状態推定にカルマン フィルター (KF) を使用します。
ただし、KF にはドメイン固有の設計選択が必要であり、非線形運動パターンの処理には適していません。
これらの制限に対処するために、私たちは 2 つの革新的なデータ駆動型フィルタリング方法を提案します。
最初の方法では、トレーニング可能な運動モデルを備えたベイジアン フィルターを使用して物体の将来の位置を予測し、その予測と物体検出器から得られた観測値を組み合わせて境界ボックスの予測精度を高めます。
さらに、KF の特徴であるドメイン固有の設計の選択肢のほとんどが不要になります。
2 番目の方法であるエンドツーエンドのトレーニング可能なフィルターは、検出器のエラーを修正する方法を学習することでさらに一歩進んで、ドメインの専門知識の必要性をさらに最小限に抑えます。
さらに、リカレント ニューラル ネットワーク、ニューラル常微分方程式、および条件付きニューラル プロセスに基づく一連の運動モデル アーキテクチャを提案したフィルタリング手法と組み合わせて紹介します。
複数のデータセットにわたる広範な評価により、私たちが提案するフィルターは、特に非線形運動パターンの場合、つまり私たちのフィルターが最適なユースケースにおいて、オブジェクト追跡において従来の KF よりも優れたパフォーマンスを発揮することが実証されています。
この新しい関連付けコストと提案したフィルターを組み込んだ私たちのトラッカーは、モーションが豊富な DanceTrack および SportsMOT データセットの複数のメトリクスに従って、マルチオブジェクト追跡において従来の SORT 法や他のモーションベースのトラッカーよりも優れたパフォーマンスを発揮します。


Traditional tracking-by-detection systems typically employ Kalman filters (KF) for state estimation. However, the KF requires domain-specific design choices and it is ill-suited to handling non-linear motion patterns. To address these limitations, we propose two innovative data-driven filtering methods. Our first method employs a Bayesian filter with a trainable motion model to predict an object’s future location and combines its predictions with observations gained from an object detector to enhance bounding box prediction accuracy. Moreover, it dispenses with most domain-specific design choices characteristic of the KF. The second method, an end-to-end trainable filter, goes a step further by learning to correct detector errors, further minimizing the need for domain expertise. Additionally, we introduce a range of motion model architectures based on Recurrent Neural Networks, Neural Ordinary Differential Equations, and Conditional Neural Processes, that are combined with the proposed filtering methods. Our extensive evaluation across multiple datasets demonstrates that our proposed filters outperform the traditional KF in object tracking, especially in the case of non-linear motion patterns — the use case our filters are best suited to. We also conduct noise robustness analysis of our filters with convincing positive results. We further propose a new cost function for associating observations with tracks. Our tracker, which incorporates this new association cost with our proposed filters, outperforms the conventional SORT method and other motion-based trackers in multi-object tracking according to multiple metrics on motion-rich DanceTrack and SportsMOT datasets.


著者 Momir Adžemović,Predrag Tadić,Andrija Petrović,Mladen Nikolić
発行日 2024-02-15 10:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク