Unifying Short and Long-Term Tracking with Graph Hierarchies

要約

長時間の動画で物体を追跡することは、短時間の非オクルージョン物体との関連付けから、一度オクルージョン化した物体が再びシーンに現れるまでの長期的な関連付けまで、様々な問題を効率的に解決することを意味します。この2つのタスクに取り組む手法は、特定のシナリオのために作られたバラバラの手法であることが多く、また、上位の手法は、一般性を欠いたエンジニアリングの多い解決策を生み出す混合手法であることが多い。本研究では、ハイブリッドアプローチの必要性に疑問を投げかけ、統一的でスケーラブルなマルチオブジェクトトラッカーであるSUSHIを導入します。本手法では、長いクリップをサブクリップの階層に分割して処理することで、高いスケーラビリティを実現する。また、グラフニューラルネットワークを利用して階層の全レベルを処理することで、時間スケールによらず統一的で汎用性の高いモデルを実現しています。その結果、4つの多様なデータセットにおいて、最先端技術に対する大幅な改善効果を得ることができました。我々のコードとモデルは公開される予定である。

要約(オリジナル)

Tracking objects over long videos effectively means solving a spectrum of problems, from short-term association for un-occluded objects to long-term association for objects that are occluded and then reappear in the scene. Methods tackling these two tasks are often disjoint and crafted for specific scenarios, and top-performing approaches are often a mix of techniques, which yields engineering-heavy solutions that lack generality. In this work, we question the need for hybrid approaches and introduce SUSHI, a unified and scalable multi-object tracker. Our approach processes long clips by splitting them into a hierarchy of subclips, which enables high scalability. We leverage graph neural networks to process all levels of the hierarchy, which makes our model unified across temporal scales and highly general. As a result, we obtain significant improvements over state-of-the-art on four diverse datasets. Our code and models will be made available.

arxiv情報

著者 Orcun Cetintas,Guillem Brasó,Laura Leal-Taixé
発行日 2022-12-06 15:12:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク