要約
RGB-DVS トラッキング用の既存のデータセットは DVS346 カメラで収集されており、その解像度 ($346 \times 260$) は実用的なアプリケーションには低いです。
実際、多くの実用的なシステムには可視カメラのみが導入されており、新しく設計されたニューロモーフィック カメラの解像度は異なる場合があります。
最新の神経形態センサーは高解像度のイベント ストリームを出力できますが、空間ビューと時間ビューの両方でイベントとフレーム間の厳密な位置合わせを達成することは非常に困難です。
したがって、位置合わせされていない神経形態センサーと可視センサーを使用して正確な追跡をどのように達成するかは、貴重ではあるが研究されていない問題です。
この研究では、位置合わせされていないニューロモーフィックカメラと可視カメラを使用したオブジェクト追跡タスクを正式に提案します。
特別に構築されたデータ収集システムを使用して収集された、最初の位置合わせされていないフレーム イベント データセット CRSOT を構築しました。これには、1,030 個の高解像度 RGB イベント ビデオ ペア、304,974 ビデオ フレームが含まれています。
さらに、緩く整列されたRGBイベントデータを使用してもロバストな追跡を実現できる、新しい非整列オブジェクト追跡フレームワークを提案します。
具体的には、テンプレートを抽出して RGB およびイベント データの領域を検索し、それらを統合された ViT バックボーンにフィードして機能を埋め込みます。
次に、RGB 特徴とイベント特徴をそれぞれ符号化する不確実性認識モジュールを提案し、次に 2 つのモダリティを集約するモダリティ不確実性融合モジュールを提案します。
これら 3 つのブランチは、トレーニング フェーズで共同して最適化されます。
広範な実験により、厳密に時間的および空間的位置合わせを行わなくても、当社のトラッカーがデュアル モダリティを連携して高性能追跡できることが実証されました。
ソース コード、データセット、および事前トレーニングされたモデルは、https://github.com/Event-AHU/Cross_Resolution_SOT でリリースされます。
要約(オリジナル)
Existing datasets for RGB-DVS tracking are collected with DVS346 camera and their resolution ($346 \times 260$) is low for practical applications. Actually, only visible cameras are deployed in many practical systems, and the newly designed neuromorphic cameras may have different resolutions. The latest neuromorphic sensors can output high-definition event streams, but it is very difficult to achieve strict alignment between events and frames on both spatial and temporal views. Therefore, how to achieve accurate tracking with unaligned neuromorphic and visible sensors is a valuable but unresearched problem. In this work, we formally propose the task of object tracking using unaligned neuromorphic and visible cameras. We build the first unaligned frame-event dataset CRSOT collected with a specially built data acquisition system, which contains 1,030 high-definition RGB-Event video pairs, 304,974 video frames. In addition, we propose a novel unaligned object tracking framework that can realize robust tracking even using the loosely aligned RGB-Event data. Specifically, we extract the template and search regions of RGB and Event data and feed them into a unified ViT backbone for feature embedding. Then, we propose uncertainty perception modules to encode the RGB and Event features, respectively, then, we propose a modality uncertainty fusion module to aggregate the two modalities. These three branches are jointly optimized in the training phase. Extensive experiments demonstrate that our tracker can collaborate the dual modalities for high-performance tracking even without strictly temporal and spatial alignment. The source code, dataset, and pre-trained models will be released at https://github.com/Event-AHU/Cross_Resolution_SOT.
arxiv情報
著者 | Yabin Zhu,Xiao Wang,Chenglong Li,Bo Jiang,Lin Zhu,Zhixiang Huang,Yonghong Tian,Jin Tang |
発行日 | 2024-01-05 14:20:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google