Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking

要約

マルチオブジェクト追跡の領域では、ビデオ シーケンス内のオブジェクト間の空間的および時間的関係を正確にキャプチャするという課題が依然として大きなハードルとなっています。
これは、オブジェクト間の相互オクルージョンが頻繁に発生することでさらに複雑になり、既存の方法では追跡エラーやパフォーマンスの低下につながる可能性があります。
これらの課題を動機として、現在の追跡アプローチの限界に対処する新しい適応キーフレーム マイニング戦略を提案します。
具体的には、強化学習を利用してビデオを適応的にセグメント化するキー フレーム抽出 (KFE) モジュールを導入し、それによってトラッカーがビデオ コンテンツの固有ロジックを活用するように導きます。
このアプローチにより、さまざまなオブジェクト間の構造化された空間的関係だけでなく、フレーム全体にわたるオブジェクトの時間的関係も捉えることができます。
オブジェクトのオクルージョンの問題に取り組むために、私たちはフレーム内機能融合 (IFF) モジュールを開発しました。
主にフレーム間特徴融合に焦点を当てた従来のグラフベースの手法とは異なり、当社の IFF モジュールはグラフ畳み込みネットワーク (GCN) を使用して、フレーム内のターゲットと周囲のオブジェクト間の情報交換を容易にします。
この革新により、ターゲットの識別性が大幅に向上し、オクルージョンによる追跡の損失と外観の類似性が軽減されます。
長い軌道と短い軌道の両方の長所を組み合わせ、オブジェクト間の空間的関係を考慮することにより、私たちが提案したトラッカーは、MOT17 データセット、つまり 68.6 HOTA、81.0 IDF1、66.6 AssA、および 893 IDS で印象的な結果を達成し、その有効性と精度を証明しました。

要約(オリジナル)

In the realm of multi-object tracking, the challenge of accurately capturing the spatial and temporal relationships between objects in video sequences remains a significant hurdle. This is further complicated by frequent occurrences of mutual occlusions among objects, which can lead to tracking errors and reduced performance in existing methods. Motivated by these challenges, we propose a novel adaptive key frame mining strategy that addresses the limitations of current tracking approaches. Specifically, we introduce a Key Frame Extraction (KFE) module that leverages reinforcement learning to adaptively segment videos, thereby guiding the tracker to exploit the intrinsic logic of the video content. This approach allows us to capture structured spatial relationships between different objects as well as the temporal relationships of objects across frames. To tackle the issue of object occlusions, we have developed an Intra-Frame Feature Fusion (IFF) module. Unlike traditional graph-based methods that primarily focus on inter-frame feature fusion, our IFF module uses a Graph Convolutional Network (GCN) to facilitate information exchange between the target and surrounding objects within a frame. This innovation significantly enhances target distinguishability and mitigates tracking loss and appearance similarity due to occlusions. By combining the strengths of both long and short trajectories and considering the spatial relationships between objects, our proposed tracker achieves impressive results on the MOT17 dataset, i.e., 68.6 HOTA, 81.0 IDF1, 66.6 AssA, and 893 IDS, proving its effectiveness and accuracy.

arxiv情報

著者 Futian Wang,Fengxiang Liu,Xiao Wang
発行日 2025-01-17 11:36:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク