Unifying Short and Long-Term Tracking with Graph Hierarchies


– 長時間の映像を追跡することは、非遮蔽物体の短期関連付けから、遮蔽されて再現するオブジェクトの長期関連付けまで、さまざまな問題を解決することを意味します。
– これら2つのタスクを扱う手法は、しばしば別々のものであり、特定のシナリオに合わせて調整されたものであり、最高のパフォーマンスを発揮するものは、しばしば技術のミックスであり、一般的ではない。
– この論文では、ハイブリッドアプローチが必要かどうかを問い、SUSHIという統一的かつスケーラブルなマルチオブジェクトトラッカーを紹介する。
– 我々の手法は、長い映像をサブクリップの階層に分割して処理することで高いスケーラビリティを実現し、グラフニューラルネットワークを利用して階層全体を処理することで、我々のモデルは時間スケールに跨って統一され、高度に一般的になります。
– 結果として、我々は4つの異なるデータセットで最新の状態に対して著しい改善を得ました。
– ソースコードとモデルは、bit.ly/sushi-motで利用可能です。


Tracking objects over long videos effectively means solving a spectrum of problems, from short-term association for un-occluded objects to long-term association for objects that are occluded and then reappear in the scene. Methods tackling these two tasks are often disjoint and crafted for specific scenarios, and top-performing approaches are often a mix of techniques, which yields engineering-heavy solutions that lack generality. In this work, we question the need for hybrid approaches and introduce SUSHI, a unified and scalable multi-object tracker. Our approach processes long clips by splitting them into a hierarchy of subclips, which enables high scalability. We leverage graph neural networks to process all levels of the hierarchy, which makes our model unified across temporal scales and highly general. As a result, we obtain significant improvements over state-of-the-art on four diverse datasets. Our code and models are available at bit.ly/sushi-mot.


著者 Orcun Cetintas,Guillem Brasó,Laura Leal-Taixé
発行日 2023-03-30 13:47:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク