RGB-Event Fusion with Self-Attention for Collision Prediction

要約

動的で現実世界の環境での自律的なロボットの安全な動作には、堅牢でリアルタイムの障害物回避を確保することが重要です。
このペーパーでは、RGBとイベントベースのビジョンセンサーを使用して、動的オブジェクトを備えた無人航空機の時間と衝突位置を予測するためのニューラルネットワークフレームワークを提案します。
提案されたアーキテクチャは、各モダリティに1つずつ、2つの個別のエンコーダーブランチで構成され、次に予測精度を向上させるための自己関節による融合が続きます。
ベンチマークを容易にするために、シングルモダリティと融合ベースのアプローチの詳細な比較を可能にするABCD [8]データセットを活用します。
50Hzの同じ予測スループットで、実験結果は、融合ベースのモデルが平均で1%、0.5mを超える距離で10%のシングルモダリティアプローチで予測精度を改善することを示していますが、メモリで + 71%、フロップで + 105%のコストで提供されます。
特に、イベントベースのモデルは、RGBモデルをポジションで4%、同様の計算コストで時間エラーを26%上回るため、競争力のある代替手段になります。
さらに、イベントベースのモデルの量子化バージョンを評価し、1〜8ビットの量子化を適用して、予測パフォーマンスと計算効率の間のトレードオフを評価します。
これらの調査結果は、RGBおよびイベントベースのカメラをロボットアプリケーションで使用したマルチモーダル認識のトレードオフを強調しています。

要約(オリジナル)

Ensuring robust and real-time obstacle avoidance is critical for the safe operation of autonomous robots in dynamic, real-world environments. This paper proposes a neural network framework for predicting the time and collision position of an unmanned aerial vehicle with a dynamic object, using RGB and event-based vision sensors. The proposed architecture consists of two separate encoder branches, one for each modality, followed by fusion by self-attention to improve prediction accuracy. To facilitate benchmarking, we leverage the ABCD [8] dataset collected that enables detailed comparisons of single-modality and fusion-based approaches. At the same prediction throughput of 50Hz, the experimental results show that the fusion-based model offers an improvement in prediction accuracy over single-modality approaches of 1% on average and 10% for distances beyond 0.5m, but comes at the cost of +71% in memory and + 105% in FLOPs. Notably, the event-based model outperforms the RGB model by 4% for position and 26% for time error at a similar computational cost, making it a competitive alternative. Additionally, we evaluate quantized versions of the event-based models, applying 1- to 8-bit quantization to assess the trade-offs between predictive performance and computational efficiency. These findings highlight the trade-offs of multi-modal perception using RGB and event-based cameras in robotic applications.

arxiv情報

著者 Pietro Bonazzi,Christian Vogt,Michael Jost,Haotong Qin,Lyes Khacef,Federico Paredes-Valles,Michele Magno
発行日 2025-05-07 09:03:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク