Learning a Neural Association Network for Self-supervised Multi-Object Tracking

要約

この論文では、自己教師ありの方法でマルチオブジェクト追跡のためのデータの関連付けを学習するための新しいフレームワークを紹介します。
完全教師あり学習方法は優れた追跡パフォーマンスを達成することが知られていますが、アイデンティティレベルのアノテーションの取得は退屈で時間がかかります。
実世界のシナリオでは、物体の動きは通常マルコフ過程で表現できるという事実に動機付けられ、時間的対応関係の事前知識を必要とせずに、追跡のための検出を関連付けるようにニューラルネットワークを訓練する新しい期待値最大化 (EM) アルゴリズムを提案します。

私たちの方法の中核には、ニューラル ネットワークによってパラメータ化された検出の関連付けに基づいて条件付けされた観測モデルを備えたニューラル カルマン フィルターがあります。
フレームのバッチを入力として与えると、隣接するフレームからの検出間のデータの関連性がニューラル ネットワークによって予測され、続いてシンクホーン正規化によって検出の状態への割り当て確率が決定されます。
次に、カルマン平滑化を使用して、推定された状態を与えられた観測値の周辺確率を取得し、勾配降下法を使用してこの周辺確率を最大化するトレーニング目標を生成します。
提案されたフレームワークは完全に微分可能であり、基礎となるニューラル モデルをエンドツーエンドでトレーニングできるようになります。
私たちは、困難な MOT17 および MOT20 データセットに対するアプローチを評価し、公開検出を使用した自己監視トラッカーと比較して最先端の結果を達成しました。
さらに、学習されたモデルがデータセット全体で一般化できることを示します。

要約(オリジナル)

This paper introduces a novel framework to learn data association for multi-object tracking in a self-supervised manner. Fully-supervised learning methods are known to achieve excellent tracking performances, but acquiring identity-level annotations is tedious and time-consuming. Motivated by the fact that in real-world scenarios object motion can be usually represented by a Markov process, we present a novel expectation maximization (EM) algorithm that trains a neural network to associate detections for tracking, without requiring prior knowledge of their temporal correspondences. At the core of our method lies a neural Kalman filter, with an observation model conditioned on associations of detections parameterized by a neural network. Given a batch of frames as input, data associations between detections from adjacent frames are predicted by a neural network followed by a Sinkhorn normalization that determines the assignment probabilities of detections to states. Kalman smoothing is then used to obtain the marginal probability of observations given the inferred states, producing a training objective to maximize this marginal probability using gradient descent. The proposed framework is fully differentiable, allowing the underlying neural model to be trained end-to-end. We evaluate our approach on the challenging MOT17 and MOT20 datasets and achieve state-of-the-art results in comparison to self-supervised trackers using public detections. We furthermore demonstrate the capability of the learned model to generalize across datasets.

arxiv情報

著者 Shuai Li,Michael Burke,Subramanian Ramamoorthy,Juergen Gall
発行日 2024-11-18 12:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク