OmniTracker: Unifying Object Tracking by Tracking-with-Detection

要約

オブジェクト トラッキング (OT) は、ビデオ シーケンス内のターゲット オブジェクトの位置を推定することを目的としています。
ターゲット オブジェクトの初期状態が最初のフレームまたはカテゴリで提供される注釈によって指定されるかどうかに応じて、OT はインスタンス追跡 (SOT および VOS など) およびカテゴリ追跡 (MOT、MOTS、および VIS など) タスクとして分類できます。
.
両方のコミュニティで開発されたベスト プラクティスの利点を組み合わせて、新しい検出付き追跡パラダイムを提案します。このパラダイムでは、追跡が検出のために出現前を補完し、検出が関連付けのための候補境界ボックスで追跡を提供します。
このような設計を備えた統合追跡モデル OmniTracker は、完全に共有されたネットワーク アーキテクチャ、モデルの重み、および推論パイプラインを使用してすべての追跡タスクを解決するためにさらに提示されます。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19 を含む 7 つの追跡データセットに関する広範な実験では、OmniTracker がタスク固有の追跡モデルと統合された追跡モデルの両方よりも同等またはそれ以上の結果を達成することが実証されています。

要約(オリジナル)

Object tracking (OT) aims to estimate the positions of target objects in a video sequence. Depending on whether the initial states of target objects are specified by provided annotations in the first frame or the categories, OT could be classified as instance tracking (e.g., SOT and VOS) and category tracking (e.g., MOT, MOTS, and VIS) tasks. Combing the advantages of the best practices developed in both communities, we propose a novel tracking-with-detection paradigm, where tracking supplements appearance priors for detection and detection provides tracking with candidate bounding boxes for association. Equipped with such a design, a unified tracking model, OmniTracker, is further presented to resolve all the tracking tasks with a fully shared network architecture, model weights, and inference pipeline. Extensive experiments on 7 tracking datasets, including LaSOT, TrackingNet, DAVIS16-17, MOT17, MOTS20, and YTVIS19, demonstrate that OmniTracker achieves on-par or even better results than both task-specific and unified tracking models.

arxiv情報

著者 Junke Wang,Dongdong Chen,Zuxuan Wu,Chong Luo,Xiyang Dai,Lu Yuan,Yu-Gang Jiang
発行日 2023-03-21 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク