VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows

要約

フレームごとに強度画像を記録する可視カメラとは異なり、生物学的に着想を得たイベントカメラは、はるかに短い遅延で非同期のスパースイベントのストリームを生成します。
実際には、可視カメラはテクスチャの詳細とスローモーションをよりよく認識できますが、イベントカメラはモーションブラーがなく、ダイナミックレンジが広いため、高速モーションと低照度でうまく機能します。
したがって、2つのセンサーは互いに連携して、より信頼性の高いオブジェクト追跡を実現できます。
この作業では、このタスクの現実的でスケーリングされたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ばれる)を提案します。
私たちのデータセットは、低照度、高速、背景の乱雑なシナリオでキャプチャされた820のビデオペアで構成され、トレーニングとテストのサブセットに分割され、それぞれに500と320のビデオが含まれています。
VisEventに基づいて、イベントフローをイベント画像に変換し、現在のシングルモダリティトラッカーをデュアルモダリティバージョンに拡張することにより、30を超えるベースラインメソッドを構築します。
さらに重要なことに、クロスモダリティトランスフォーマーを提案することにより、シンプルで効果的な追跡アルゴリズムをさらに構築し、可視データとイベントデータ間のより効果的な機能融合を実現します。
提案されたVisEventデータセットFE108、および2つのシミュレートされたデータセット(つまり、OTB-DVSとVOT-DVS)に関する広範な実験により、モデルの有効性が検証されました。
データセットとソースコードは、プロジェクトページ\url{https://sites.google.com/view/viseventtrack/}でリリースされています。

要約(オリジナル)

Different from visible cameras which record intensity images frame by frame, the biologically inspired event camera produces a stream of asynchronous and sparse events with much lower latency. In practice, the visible cameras can better perceive texture details and slow motion, while event cameras can be free from motion blurs and have a larger dynamic range which enables them to work well under fast motion and low illumination. Therefore, the two sensors can cooperate with each other to achieve more reliable object tracking. In this work, we propose a large-scale Visible-Event benchmark (termed VisEvent) due to the lack of a realistic and scaled dataset for this task. Our dataset consists of 820 video pairs captured under low illumination, high speed, and background clutter scenarios, and it is divided into a training and a testing subset, each of which contains 500 and 320 videos, respectively. Based on VisEvent, we transform the event flows into event images and construct more than 30 baseline methods by extending current single-modality trackers into dual-modality versions. More importantly, we further build a simple but effective tracking algorithm by proposing a cross-modality transformer, to achieve more effective feature fusion between visible and event data. Extensive experiments on the proposed VisEvent dataset, FE108, and two simulated datasets (i.e., OTB-DVS and VOT-DVS), validated the effectiveness of our model. The dataset and source code have been released at our project page: \url{https://sites.google.com/view/viseventtrack/}.

arxiv情報

著者 Xiao Wang,Jianing Li,Lin Zhu,Zhipeng Zhang,Zhe Chen,Xin Li,Yaowei Wang,Yonghong Tian,Feng Wu
発行日 2022-06-28 12:31:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク