要約
イベント カメラは、高い時間解像度と高いダイナミック レンジを備えているため、モダリティ間の局所特徴抽出とイベント画像データのマッチングに関する研究は限られています。
我々は、2 つのモダリティ固有のキーポイント抽出器と特徴マッチャーを統合する、無媒介で柔軟なフレームワークである EI-Nexus を提案します。
視点やモダリティの変更全体でキーポイント抽出を実現するために、局所特徴抽出 (LFD) を導入しました。これにより、視点の一貫性が十分に学習された画像抽出器からイベント抽出器に転送され、堅牢な特徴の対応が保証されます。
さらに、Context Aggregation (CA) の助けにより、特徴マッチングにおいて顕著な向上が見られます。
さらに、イベント画像データの相対姿勢推定を評価するために、最初の 2 つのモダリティ間特徴マッチング ベンチマーク、MVSEC-RPE および EC-RPE を確立します。
私たちのアプローチは、明示的なモーダル変換に依存する従来の方法よりも優れており、より無媒介で適応性のある特徴抽出とマッチングを提供し、MVSEC-RPE および EC-RPE ベンチマークでより優れたキーポイント類似性と最先端の結果を達成します。
ソース コードとベンチマークは、https://github.com/ZhonghuaYi/EI-Nexus_official で公開されます。
要約(オリジナル)
Event cameras, with high temporal resolution and high dynamic range, have limited research on the inter-modality local feature extraction and matching of event-image data. We propose EI-Nexus, an unmediated and flexible framework that integrates two modality-specific keypoint extractors and a feature matcher. To achieve keypoint extraction across viewpoint and modality changes, we bring Local Feature Distillation (LFD), which transfers the viewpoint consistency from a well-learned image extractor to the event extractor, ensuring robust feature correspondence. Furthermore, with the help of Context Aggregation (CA), a remarkable enhancement is observed in feature matching. We further establish the first two inter-modality feature matching benchmarks, MVSEC-RPE and EC-RPE, to assess relative pose estimation on event-image data. Our approach outperforms traditional methods that rely on explicit modal transformation, offering more unmediated and adaptable feature extraction and matching, achieving better keypoint similarity and state-of-the-art results on the MVSEC-RPE and EC-RPE benchmarks. The source code and benchmarks will be made publicly available at https://github.com/ZhonghuaYi/EI-Nexus_official.
arxiv情報
著者 | Zhonghua Yi,Hao Shi,Qi Jiang,Kailun Yang,Ze Wang,Diyang Gu,Yufan Zhang,Kaiwei Wang |
発行日 | 2024-10-29 05:10:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google