要約
イベント カメラは、マイクロ秒レベルの時間分解能と非同期操作により、動的な環境でのリアルタイム認識に比類のない利点をもたらします。
しかし、既存のイベントベースの物体検出方法は、固定周波数パラダイムによって制限されており、イベント カメラの高い時間解像度と適応性を十分に活用できません。
これらの制限に対処するために、私たちは、任意の周波数での検出を可能にする新しいイベント カメラ オブジェクト検出フレームワークである FlexEvent を提案します。
私たちのアプローチは 2 つの重要なコンポーネントで構成されています。FlexFuser は、高周波イベント データと RGB フレームからの豊富なセマンティック情報を統合する適応型イベント フレーム フュージョン モジュールです。もう 1 つは、モデルを強化するために周波数調整されたラベルを生成する周波数適応型学習メカニズムである FAL です。
さまざまな動作周波数にわたる一般化。
この組み合わせにより、私たちの方法は、動的な環境に適応しながら、高速で移動するシナリオと静的なシナリオの両方で物体を高精度で検出できます。
大規模なイベント カメラ データセットに対する広範な実験により、私たちのアプローチが最先端の手法を超え、標準と高頻度の設定の両方で大幅な改善が達成されたことが実証されました。
特に、私たちの手法は 20 Hz から 90 Hz までスケーリングしても堅牢なパフォーマンスを維持し、最大 180 Hz まで正確な検出を実現し、極端な条件下での有効性を証明しています。
私たちのフレームワークは、イベントベースの物体検出の新しいベンチマークを設定し、より適応性の高いリアルタイム ビジョン システムへの道を開きます。
要約(オリジナル)
Event cameras offer unparalleled advantages for real-time perception in dynamic environments, thanks to their microsecond-level temporal resolution and asynchronous operation. Existing event-based object detection methods, however, are limited by fixed-frequency paradigms and fail to fully exploit the high-temporal resolution and adaptability of event cameras. To address these limitations, we propose FlexEvent, a novel event camera object detection framework that enables detection at arbitrary frequencies. Our approach consists of two key components: FlexFuser, an adaptive event-frame fusion module that integrates high-frequency event data with rich semantic information from RGB frames, and FAL, a frequency-adaptive learning mechanism that generates frequency-adjusted labels to enhance model generalization across varying operational frequencies. This combination allows our method to detect objects with high accuracy in both fast-moving and static scenarios, while adapting to dynamic environments. Extensive experiments on large-scale event camera datasets demonstrate that our approach surpasses state-of-the-art methods, achieving significant improvements in both standard and high-frequency settings. Notably, our method maintains robust performance when scaling from 20 Hz to 90 Hz and delivers accurate detection up to 180 Hz, proving its effectiveness in extreme conditions. Our framework sets a new benchmark for event-based object detection and paves the way for more adaptable, real-time vision systems.
arxiv情報
著者 | Dongyue Lu,Lingdong Kong,Gim Hee Lee,Camille Simon Chane,Wei Tsang Ooi |
発行日 | 2024-12-09 17:57:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google