要約
非同期イベントとフレームの 2 つの相補的なセンシング モダリティをストリーミングする DAVIS カメラは、主要な物体検出の課題 (高速モーション ブラーや低照度など) に対処するために徐々に使用されてきました。
ただし、豊富な時間的手がかりを効果的に活用し、2 つの異質な視覚ストリームを融合する方法は、依然として困難な取り組みです。
この課題に対処するために、Transformer を使用した新しいストリーミング オブジェクト検出器、つまり SODFormer を提案します。これは、最初にイベントとフレームを統合して、非同期方法で継続的にオブジェクトを検出します。
技術的には、最初に、1080.1k の手動ラベル上に大規模なマルチモーダル ニューロモーフィック オブジェクト検出データセット (つまり、PKU-DAVIS-SOD) を構築します。
次に、エンドツーエンドのシーケンス予測問題を通じて物体を検出するための時空間 Transformer アーキテクチャを設計します。この新しい時間 Transformer モジュールは、2 つのビジュアル ストリームからの豊富な時間的手がかりを活用して、検出パフォーマンスを向上させます。
最後に、非同期アテンションベースの融合モジュールは、2 つの異種センシングモダリティを統合し、それぞれの端から補完的な利点を得るために提案されており、いつでもクエリを実行してオブジェクトの位置を特定し、同期されたフレームベースの融合戦略からの制限された出力周波数を突破できます。
結果は、提案された SODFormer が 4 つの最先端の方法と当社の 8 つのベースラインを大幅に上回っていることを示しています。
また、高速動作や低照度条件など、従来のフレームベースのカメラが機能しない場合でも、統合フレームワークがうまく機能することも示します。
データセットとコードは https://github.com/dianzl/SODFormer から入手できます。
要約(オリジナル)
DAVIS camera, streaming two complementary sensing modalities of asynchronous events and frames, has gradually been used to address major object detection challenges (e.g., fast motion blur and low-light). However, how to effectively leverage rich temporal cues and fuse two heterogeneous visual streams remains a challenging endeavor. To address this challenge, we propose a novel streaming object detector with Transformer, namely SODFormer, which first integrates events and frames to continuously detect objects in an asynchronous manner. Technically, we first build a large-scale multimodal neuromorphic object detection dataset (i.e., PKU-DAVIS-SOD) over 1080.1k manual labels. Then, we design a spatiotemporal Transformer architecture to detect objects via an end-to-end sequence prediction problem, where the novel temporal Transformer module leverages rich temporal cues from two visual streams to improve the detection performance. Finally, an asynchronous attention-based fusion module is proposed to integrate two heterogeneous sensing modalities and take complementary advantages from each end, which can be queried at any time to locate objects and break through the limited output frequency from synchronized frame-based fusion strategies. The results show that the proposed SODFormer outperforms four state-of-the-art methods and our eight baselines by a significant margin. We also show that our unifying framework works well even in cases where the conventional frame-based camera fails, e.g., high-speed motion and low-light conditions. Our dataset and code can be available at https://github.com/dianzl/SODFormer.
arxiv情報
著者 | Dianze Li,Jianing Li,Yonghong Tian |
発行日 | 2023-08-08 04:53:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google