SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking

要約

オープンボキャブラリーの複数オブジェクト追跡 (MOT) は、トラッカーをトレーニング セットにない新しいカテゴリに一般化することを目的としています。
現在、最もパフォーマンスの高い方法は、主に純粋な外観のマッチングに基づいています。
語彙が多いシナリオにおける動作パターンの複雑さと新規オブジェクトの分類が不安定なため、動作とセマンティクスの手がかりは無視されるか、既存の方法による最終的なマッチング手順でヒューリスティックに基づいて適用されます。
この論文では、関連付けの初期段階でセマンティクス、位置、外観事前確率を共同で考慮し、軽量の空間的および時間的オブジェクト グラフを通じてすべての貴重な情報を統合する方法を学習する統合フレームワーク SLAck を紹介します。
私たちの方法は、異なるキューを融合するための複雑な後処理ヒューリスティックを排除し、大規模なオープン語彙追跡の関連付けパフォーマンスを大幅に向上させます。
付加機能なしで、オープンボキャブラリーの MOT および TAO TETA ベンチマークで、新規クラス追跡に関するこれまでの最先端の方法よりも優れたパフォーマンスを示しました。
私たちのコードは \href{https://github.com/siyuanliii/SLAck}{github.com/siyuanliii/SLAck} で入手できます。

要約(オリジナル)

Open-vocabulary Multiple Object Tracking (MOT) aims to generalize trackers to novel categories not in the training set. Currently, the best-performing methods are mainly based on pure appearance matching. Due to the complexity of motion patterns in the large-vocabulary scenarios and unstable classification of the novel objects, the motion and semantics cues are either ignored or applied based on heuristics in the final matching steps by existing methods. In this paper, we present a unified framework SLAck that jointly considers semantics, location, and appearance priors in the early steps of association and learns how to integrate all valuable information through a lightweight spatial and temporal object graph. Our method eliminates complex post-processing heuristics for fusing different cues and boosts the association performance significantly for large-scale open-vocabulary tracking. Without bells and whistles, we outperform previous state-of-the-art methods for novel classes tracking on the open-vocabulary MOT and TAO TETA benchmarks. Our code is available at \href{https://github.com/siyuanliii/SLAck}{github.com/siyuanliii/SLAck}.

arxiv情報

著者 Siyuan Li,Lei Ke,Yung-Hsu Yang,Luigi Piccinelli,Mattia Segù,Martin Danelljan,Luc Van Gool
発行日 2024-09-17 14:36:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク