Z-GMOT: Zero-shot Generic Multiple Object Tracking


最近の大幅な進歩にもかかわらず、複数オブジェクト追跡 (MOT) は、事前知識や事前定義されたカテゴリへの依存や、目に見えないオブジェクトへの対応などの制限に直面しています。
これらの問題に対処するために、事前の情報をあまり必要としない汎用複数オブジェクト追跡 (GMOT) が代替アプローチとして登場しました。
ただし、現在の GMOT 手法は初期の境界ボックスに依存することが多く、視点、照明、オクルージョン、スケールなどの要素の変動を処理するのに苦労しています。
私たちの貢献は、ビデオのコレクションである \textit{Referring GMOT dataset} の紹介から始まります。各ビデオには属性の詳細なテキスト説明が付いています。
続いて、最初の境界ボックスや事前定義されたカテゴリを必要とせずに \textit{見たことのないカテゴリ} からオブジェクトを追跡できる最先端の追跡ソリューションである $\mathtt{Z-GMOT}$ を提案します。
$\mathtt{Z-GMOT}$ フレームワーク内で、次の 2 つの新しいコンポーネントを導入します。(i) $\mathtt{iGLIP}$ は、特定の特性を持つ目に見えない物体を正確に検出するための、改良されたグラウンデッド言語イメージ事前学習です。
(ii) $\mathtt{MA-SORT}$ は、動きと外観に基づくマッチング戦略を適切に統合して、類似性の高いオブジェクトを追跡するという複雑なタスクに取り組む、新しいオブジェクト関連付けアプローチです。
私たちの貢献は、GMOT タスクの参照 GMOT データセットに対して行われた広範な実験を通じてベンチマークされています。
さらに、提案された $\mathtt{Z-GMOT}$ の一般化可能性を評価するために、MOT タスクの DanceTrack および MOT20 データセットに対してアブレーション研究を実施します。
データセット、コード、モデルは https://fsoft-aic.github.io/Z-GMOT でリリースされています。


Despite recent significant progress, Multi-Object Tracking (MOT) faces limitations such as reliance on prior knowledge and predefined categories and struggles with unseen objects. To address these issues, Generic Multiple Object Tracking (GMOT) has emerged as an alternative approach, requiring less prior information. However, current GMOT methods often rely on initial bounding boxes and struggle to handle variations in factors such as viewpoint, lighting, occlusion, and scale, among others. Our contributions commence with the introduction of the \textit{Referring GMOT dataset} a collection of videos, each accompanied by detailed textual descriptions of their attributes. Subsequently, we propose $\mathtt{Z-GMOT}$, a cutting-edge tracking solution capable of tracking objects from \textit{never-seen categories} without the need of initial bounding boxes or predefined categories. Within our $\mathtt{Z-GMOT}$ framework, we introduce two novel components: (i) $\mathtt{iGLIP}$, an improved Grounded language-image pretraining, for accurately detecting unseen objects with specific characteristics. (ii) $\mathtt{MA-SORT}$, a novel object association approach that adeptly integrates motion and appearance-based matching strategies to tackle the complex task of tracking objects with high similarity. Our contributions are benchmarked through extensive experiments conducted on the Referring GMOT dataset for GMOT task. Additionally, to assess the generalizability of the proposed $\mathtt{Z-GMOT}$, we conduct ablation studies on the DanceTrack and MOT20 datasets for the MOT task. Our dataset, code, and models are released at: https://fsoft-aic.github.io/Z-GMOT.


著者 Kim Hoang Tran,Anh Duy Le Dinh,Tien Phat Nguyen,Thinh Phan,Pha Nguyen,Khoa Luu,Donald Adjeroh,Gianfranco Doretto,Ngan Hoang Le
発行日 2024-04-15 09:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク