FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies

要約

イベントカメラは、マイクロ秒レベルの時間分解能と非同期操作のおかげで、動的環境でのリアルタイムの知覚に比類のない利点を提供します。
ただし、既存のイベント検出器は固定周波数パラダイムによって制限されており、イベントデータの高度な解像度と適応性を完全に活用できません。
これらの制限に対処するために、さまざまな周波数で検出を可能にする新しいフレームワークであるFlexEventを提案します。
私たちのアプローチは、2つの重要なコンポーネントで構成されています。FlexFuseは、高周波イベントデータをRGBフレームからのリッチセマンティック情報と統合する適応イベントフレーム融合モジュールと、周波数調整ラベルを生成して、さまざまな運用頻度全体のモデル一般化を強化する周波数適合ラベルを生成するFlextuneです。
この組み合わせにより、私たちの方法は、動的環境に適応しながら、動きのシナリオと静的シナリオの両方で高い精度でオブジェクトを検出できます。
大規模なイベントカメラデータセットでの広範な実験は、私たちのアプローチが最先端の方法を上回り、標準的な設定と高周波設定の両方で大幅な改善を達成することを示しています。
特に、私たちの方法は、20 Hzから90 Hzまでのスケーリング時に堅牢なパフォーマンスを維持し、最大180 Hzまでの正確な検出を実現し、極端な条件でその有効性を証明します。
私たちのフレームワークは、イベントベースのオブジェクト検出のための新しいベンチマークを設定し、より適応性のあるリアルタイムビジョンシステムへの道を開きます。
コードは公開されています。

要約(オリジナル)

Event cameras offer unparalleled advantages for real-time perception in dynamic environments, thanks to the microsecond-level temporal resolution and asynchronous operation. Existing event detectors, however, are limited by fixed-frequency paradigms and fail to fully exploit the high-temporal resolution and adaptability of event data. To address these limitations, we propose FlexEvent, a novel framework that enables detection at varying frequencies. Our approach consists of two key components: FlexFuse, an adaptive event-frame fusion module that integrates high-frequency event data with rich semantic information from RGB frames, and FlexTune, a frequency-adaptive fine-tuning mechanism that generates frequency-adjusted labels to enhance model generalization across varying operational frequencies. This combination allows our method to detect objects with high accuracy in both fast-moving and static scenarios, while adapting to dynamic environments. Extensive experiments on large-scale event camera datasets demonstrate that our approach surpasses state-of-the-art methods, achieving significant improvements in both standard and high-frequency settings. Notably, our method maintains robust performance when scaling from 20 Hz to 90 Hz and delivers accurate detection up to 180 Hz, proving its effectiveness in extreme conditions. Our framework sets a new benchmark for event-based object detection and paves the way for more adaptable, real-time vision systems. Code is publicly available.

arxiv情報

著者 Dongyue Lu,Lingdong Kong,Gim Hee Lee,Camille Simon Chane,Wei Tsang Ooi
発行日 2025-05-29 13:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク