要約
都市環境を移動する四足歩行ロボットの観点から、視覚と音声を使用したマルチモーダルな信号機状態検出を紹介します。
これは、視覚的な遮蔽とロボットの移動によるノイズのため、困難な問題です。
私たちの方法は、生のオーディオからの特徴と、確立された視覚ベースの検出器によって識別された境界ボックス内の赤と緑のピクセルの比率を組み合わせます。
フュージョン手法は、特定のタイムフレーム内の複数のフレームにわたる特徴を集約し、堅牢性と適応性を高めます。
結果は、私たちのアプローチが視覚的遮蔽の課題に効果的に対処し、ロボットが動いているときの単一モダリティ ソリューションのパフォーマンスを上回ることを示しています。
この研究は概念実証として機能し、ロボット工学におけるマルチモーダル知覚の重要な、しかし見落とされがちな可能性を強調しています。
要約(オリジナル)
We present a multimodal traffic light state detection using vision and sound, from the viewpoint of a quadruped robot navigating in urban settings. This is a challenging problem because of the visual occlusions and noise from robot locomotion. Our method combines features from raw audio with the ratios of red and green pixels within bounding boxes, identified by established vision-based detectors. The fusion method aggregates features across multiple frames in a given timeframe, increasing robustness and adaptability. Results show that our approach effectively addresses the challenge of visual occlusion and surpasses the performance of single-modality solutions when the robot is in motion. This study serves as a proof of concept, highlighting the significant, yet often overlooked, potential of multi-modal perception in robotics.
arxiv情報
著者 | Sagar Gupta,Akansel Cosgun |
発行日 | 2024-04-30 06:12:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google