Revisiting Color-Event based Tracking: A Unified Network, Dataset, and Metric

要約

カラー カメラとイベント カメラ (ダイナミック ビジョン センサー、DVS とも呼ばれる) を組み合わせて堅牢なオブジェクト追跡を行うことは、近年新たに浮上した研究トピックです。
既存のカラーイベント追跡フレームワークには、通常、特徴抽出、融合、マッチング、インタラクティブ学習などを含む、低効率と高い計算複雑性をもたらす複数の分散モジュールが含まれています。この論文では、カラー用の単一ステージのバックボーン ネットワークを提案します。
上記の機能を同時に実現する Event Unified Tracking (CEUTrack)。
イベント ポイントと RGB フレームが与えられた場合、まずポイントをボクセルに変換し、テンプレートをトリミングして、両方のモダリティの領域をそれぞれ検索します。
次に、これらの領域はトークンに投影され、統合された Transformer バックボーン ネットワークに並行して供給されます。
出力特徴は、ターゲット オブジェクトの位置特定のためにトラッキング ヘッドに供給されます。
私たちが提案する CEUTrack はシンプル、効果的、効率的で、75 FPS 以上と新しい SOTA パフォーマンスを実現します。
モデルの有効性をより適切に検証し、このタスクのデータ不足に対処するために、90 のカテゴリと 1354 のビデオ シーケンスを含む、COESOT と呼ばれる、カラー イベント トラッキング用の汎用かつ大規模なベンチマーク データセットも提案します。
さらに、BOC という新しい評価指標が評価ツールキットで提案されており、ベースライン手法に対する卓越性を評価します。
新しく提案された方法、データセット、評価指標が、カラーイベントベースの追跡のためのより良いプラットフォームを提供することを願っています。
データセット、ツールキット、ソース コードは \url{https://github.com/Event-AHU/COESOT} でリリースされます。

要約(オリジナル)

Combining the Color and Event cameras (also called Dynamic Vision Sensors, DVS) for robust object tracking is a newly emerging research topic in recent years. Existing color-event tracking framework usually contains multiple scattered modules which may lead to low efficiency and high computational complexity, including feature extraction, fusion, matching, interactive learning, etc. In this paper, we propose a single-stage backbone network for Color-Event Unified Tracking (CEUTrack), which achieves the above functions simultaneously. Given the event points and RGB frames, we first transform the points into voxels and crop the template and search regions for both modalities, respectively. Then, these regions are projected into tokens and parallelly fed into the unified Transformer backbone network. The output features will be fed into a tracking head for target object localization. Our proposed CEUTrack is simple, effective, and efficient, which achieves over 75 FPS and new SOTA performance. To better validate the effectiveness of our model and address the data deficiency of this task, we also propose a generic and large-scale benchmark dataset for color-event tracking, termed COESOT, which contains 90 categories and 1354 video sequences. Additionally, a new evaluation metric named BOC is proposed in our evaluation toolkit to evaluate the prominence with respect to the baseline methods. We hope the newly proposed method, dataset, and evaluation metric provide a better platform for color-event-based tracking. The dataset, toolkit, and source code will be released on: \url{https://github.com/Event-AHU/COESOT}.

arxiv情報

著者 Chuanming Tang,Xiao Wang,Ju Huang,Bo Jiang,Lin Zhu,Jianlin Zhang,Yaowei Wang,Yonghong Tian
発行日 2024-01-08 13:27:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.NE パーマリンク