OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

要約

オープンボキャブラリー複数のオブジェクトトラッキングは、トレーニング中にトラッカーを目に見えないカテゴリに一般化することを目的としており、さまざまな現実世界のシナリオでアプリケーションを可能にします。
ただし、既存のオープンボキャブラリートラッカーは、そのフレームワーク構造、分離されたフレームレベルの知覚、および不十分なモーダル相互作用によって制約されており、これにより、オープンポキュブの分類と追跡のパフォーマンスが妨げられます。
このホワイトペーパーでは、モーション、外観、カテゴリを同時にモデル化する最初のエンドツーエンドのオープンボキャブラリートラッカーであるOVTR(トランスを使用したエンドツーエンドのオープンボキャブラリーマルチオブジェクトトラッキング)を提案します。
安定した分類と継続的な追跡を実現するために、CIP(カテゴリ情報伝播)戦略を設計し、その後のフレームの複数の高レベルのカテゴリ情報事前を確立します。
さらに、一般化能力と深いマルチモーダル相互作用のためのデュアルブランチ構造を導入し、パフォーマンスを向上させるためにデコーダーに保護戦略を組み込みます。
実験結果は、私たちの方法では、オープンボキャブラリーMOTベンチマークで以前のトラッカーを上回り、推論速度が高速化し、前処理要件を大幅に削減することを示しています。
さらに、モデルを別のデータセットに転送する実験は、その強力な適応性を示しています。
モデルとコードはhttps://github.com/jinyanglii/ovtrでリリースされます。

要約(オリジナル)

Open-vocabulary multiple object tracking aims to generalize trackers to unseen categories during training, enabling their application across a variety of real-world scenarios. However, the existing open-vocabulary tracker is constrained by its framework structure, isolated frame-level perception, and insufficient modal interactions, which hinder its performance in open-vocabulary classification and tracking. In this paper, we propose OVTR (End-to-End Open-Vocabulary Multiple Object Tracking with TRansformer), the first end-to-end open-vocabulary tracker that models motion, appearance, and category simultaneously. To achieve stable classification and continuous tracking, we design the CIP (Category Information Propagation) strategy, which establishes multiple high-level category information priors for subsequent frames. Additionally, we introduce a dual-branch structure for generalization capability and deep multimodal interaction, and incorporate protective strategies in the decoder to enhance performance. Experimental results show that our method surpasses previous trackers on the open-vocabulary MOT benchmark while also achieving faster inference speeds and significantly reducing preprocessing requirements. Moreover, the experiment transferring the model to another dataset demonstrates its strong adaptability. Models and code are released at https://github.com/jinyanglii/OVTR.

arxiv情報

著者 Jinyang Li,En Yu,Sijia Chen,Wenbing Tao
発行日 2025-03-18 16:12:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク