要約
アクティブビジョンは、動的な視覚的知覚を可能にし、大規模なデータセットと高い計算リソースに依存するコンピュータービジョンの静的なフィードフォワードアーキテクチャの代替品を提供します。
生物学的選択的注意メカニズムにより、エージェントは関心のある顕著な領域(ROI)に焦点を合わせ、リアルタイムの応答性を維持しながら計算需要を減らします。
哺乳類の網膜に触発されたイベントベースのカメラは、非同期シーンの変化をキャプチャすることにより、効率的な低遅延処理を可能にすることにより、この機能を強化します。
イベントベースのカメラが動いている間に移動するオブジェクトを区別するために、エージェントはターゲットを正確に検出し、視野(Fovea)に集中するためにオブジェクトモーションセグメンテーションメカニズムを必要とします。
イベントベースのセンサーと神経型アルゴリズムを統合することは、スパイクニューラルネットワークを使用して計算を並列化し、動的環境に適応するパラダイムシフトを表します。
この作業は、オブジェクトのモーション感度を介して選択的な注意を払うために、スパイク畳み込みの畳み込みニューラルネットワークバイオインスパイアされた注意システムを提示します。
このシステムは、PAN-TILTユニットに取り付けられたSpeck Neuromorphic Hardwareに統合された動的ビジョンセンサーを使用して、ROIとサッカードを識別して、固定眼球運動を介してイベントを生成します。
このシステムは、理想的な格子を使用してイベントカメラのモーションセグメンテーションデータセットに対してベンチマークされていることを特徴づけ、マルチオブジェクトモーションセグメンテーションで82.2%の平均IOUと96%の平均SSIMに達します。
顕著なオブジェクトの検出は、オフィスシナリオで88.8%の精度に達し、イベント支援の低光照明ビデオオブジェクトセグメンテーションデータセットでは低光条件で89.8%に達します。
リアルタイムのデモンストレーターは、動的シーンに対するシステムの0.12秒の応答を示しています。
その学習のない設計により、知覚シーン全体の堅牢性が保証され、より複雑なアーキテクチャの基礎として機能するリアルタイムロボットアプリケーションの信頼できる基盤となります。
要約(オリジナル)
Active vision enables dynamic visual perception, offering an alternative to static feedforward architectures in computer vision, which rely on large datasets and high computational resources. Biological selective attention mechanisms allow agents to focus on salient Regions of Interest (ROIs), reducing computational demand while maintaining real-time responsiveness. Event-based cameras, inspired by the mammalian retina, enhance this capability by capturing asynchronous scene changes enabling efficient low-latency processing. To distinguish moving objects while the event-based camera is in motion the agent requires an object motion segmentation mechanism to accurately detect targets and center them in the visual field (fovea). Integrating event-based sensors with neuromorphic algorithms represents a paradigm shift, using Spiking Neural Networks to parallelize computation and adapt to dynamic environments. This work presents a Spiking Convolutional Neural Network bioinspired attention system for selective attention through object motion sensitivity. The system generates events via fixational eye movements using a Dynamic Vision Sensor integrated into the Speck neuromorphic hardware, mounted on a Pan-Tilt unit, to identify the ROI and saccade toward it. The system, characterized using ideal gratings and benchmarked against the Event Camera Motion Segmentation Dataset, reaches a mean IoU of 82.2% and a mean SSIM of 96% in multi-object motion segmentation. The detection of salient objects reaches 88.8% accuracy in office scenarios and 89.8% in low-light conditions on the Event-Assisted Low-Light Video Object Segmentation Dataset. A real-time demonstrator shows the system’s 0.12 s response to dynamic scenes. Its learning-free design ensures robustness across perceptual scenes, making it a reliable foundation for real-time robotic applications serving as a basis for more complex architectures.
arxiv情報
著者 | Giulia D Angelo,Victoria Clerico,Chiara Bartolozzi,Matej Hoffmann,P. Michael Furlong,Alexander Hadjiivanov |
発行日 | 2025-02-10 18:16:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google