要約
イベント カメラは消費電力が低く、マイクロ秒単位の明るさの変化をキャプチャできるため、さまざまなコンピュータ ビジョン タスクにとって魅力的です。
既存のイベント表現方法は通常、イベントをディープ ニューラル ネットワーク (DNN) のフレーム、ボクセル グリッド、またはスパイクに変換します。
ただし、これらのアプローチでは、多くの場合、時間的な粒度が犠牲になったり、処理に特殊なデバイスが必要になったりします。
この研究では、新しいトークンベースのイベント表現が導入されており、各イベントはイベント トークンと呼ばれる基本的な処理単位と見なされます。
このアプローチでは、シーケンスの複雑な時空間属性がイベント レベルで保存されます。
さらに、イベント間の時間的および空間的相関関係を協力して構築するために、イベントトランスフォーマーブロック(ETB)のスリーウェイアテンションメカニズムを提案します。
私たちが提案するトークンベースのイベント表現を、オブジェクト分類およびオプティカル フロー推定のための他の一般的な方法と広範囲に比較します。
実験結果は、標準的なデバイスで最小限の計算リソースを要求しながら、競争力のあるパフォーマンスを示しています。
私たちのコードは \url{https://github.com/NJUVISION/EventTransformer} で公開されています。
要約(オリジナル)
The event camera’s low power consumption and ability to capture microsecond brightness changes make it attractive for various computer vision tasks. Existing event representation methods typically convert events into frames, voxel grids, or spikes for deep neural networks (DNNs). However, these approaches often sacrifice temporal granularity or require specialized devices for processing. This work introduces a novel token-based event representation, where each event is considered a fundamental processing unit termed an event-token. This approach preserves the sequence’s intricate spatiotemporal attributes at the event level. Moreover, we propose a Three-way Attention mechanism in the Event Transformer Block (ETB) to collaboratively construct temporal and spatial correlations between events. We compare our proposed token-based event representation extensively with other prevalent methods for object classification and optical flow estimation. The experimental results showcase its competitive performance while demanding minimal computational resources on standard devices. Our code is publicly accessible at \url{https://github.com/NJUVISION/EventTransformer}.
arxiv情報
| 著者 | Bin Jiang,Zhihao Li,M. Salman Asif,Xun Cao,Zhan Ma | 
| 発行日 | 2024-06-12 15:06:10+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
