Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection

要約

フレームベースのビジョンでは、従来のカメラの感知能力が限られているため、困難な条件下では物体検出のパフォーマンスが大幅に低下します。
イベント カメラは、まばらな非同期イベントを出力し、これらの問題を解決する潜在的なソリューションを提供します。
ただし、2 つの異種モダリティを効果的に融合することは未解決の問題のままです。
この研究では、イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案します。
中心となるコンセプトは、クロスモダリティ適応機能改良 (CAFR) モジュールと呼ばれる、粗密融合モジュールの設計です。
初期段階では、双方向クロスモダリティ インタラクション (BCI) 部分により、2 つの異なるソースからの情報の橋渡しが容易になります。
その後、2 倍適応特徴改良 (TAFR) 部分でチャネル レベルの平均と分散を調整することにより、特徴がさらに改良されます。
私たちは、低解像度の PKU-DDD17-Car データセットと高解像度の DSEC データセットの 2 つのベンチマークで広範な実験を実施しました。
実験結果は、私たちの方法が DSEC データセット上で $\textbf{8.0}\%$ という驚異的なマージンで最先端技術を上回っていることを示しています。
さらに、フレーム画像に 15 種類の異なる破損を導入した場合、私たちの方法は大幅に優れた堅牢性 (\textbf{69.5}\% 対 \textbf{38.7}\%) を示します。
コードはリンク (https://github.com/HuCaoFighting/FRN) で見つけることができます。

要約(オリジナル)

In frame-based vision, object detection faces substantial performance degradation under challenging conditions due to the limited sensing capability of conventional cameras. Event cameras output sparse and asynchronous events, providing a potential solution to solve these problems. However, effectively fusing two heterogeneous modalities remains an open issue. In this work, we propose a novel hierarchical feature refinement network for event-frame fusion. The core concept is the design of the coarse-to-fine fusion module, denoted as the cross-modality adaptive feature refinement (CAFR) module. In the initial phase, the bidirectional cross-modality interaction (BCI) part facilitates information bridging from two distinct sources. Subsequently, the features are further refined by aligning the channel-level mean and variance in the two-fold adaptive feature refinement (TAFR) part. We conducted extensive experiments on two benchmarks: the low-resolution PKU-DDD17-Car dataset and the high-resolution DSEC dataset. Experimental results show that our method surpasses the state-of-the-art by an impressive margin of $\textbf{8.0}\%$ on the DSEC dataset. Besides, our method exhibits significantly better robustness (\textbf{69.5}\% versus \textbf{38.7}\%) when introducing 15 different corruption types to the frame images. The code can be found at the link (https://github.com/HuCaoFighting/FRN).

arxiv情報

著者 Hu Cao,Zehua Zhang,Yan Xia,Xinyi Li,Jiahao Xia,Guang Chen,Alois Knoll
発行日 2024-07-17 14:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク