要約
本研究では、ロボットアプリケーションのための動的歩行者認識を改善するために設計された自己教師付きオーディオビジュアル融合システムであるAV-PedAwareを紹介する。歩行者認識は、多くのロボットアプリケーションにおいて重要な要件である。しかし、複数のビューをカバーするカメラやLIDARに依存する従来のアプローチは、高価であり、照明、オクルージョン、天候条件の変化などの問題の影響を受けやすい。我々の提案するソリューションは、低コストの音声と視覚のフュージョンを用いて、3D歩行者検出のための人間の知覚を再現する。この研究は、周辺の歩行者の動きを予測する目的で、足音を監視するためにオーディオビジュアル・フュージョンを採用する最初の試みである。このシステムは、LIDARによって生成されたラベルに基づく自己教師あり学習によって訓練され、LIDARベースの歩行者認識に代わる費用対効果の高いものとなっている。AV-PedAwareは、LIDARベースのシステムと同等の結果をわずかなコストで達成する。注意メカニズムを利用することで、従来のLIDARやカメラベースのシステムの限界を克服し、動的な照明やオクルージョンを扱うことができます。本アプローチの有効性を評価するために、我々は新しいマルチモーダル歩行者検出データセットを収集し、極端な視覚条件下でも、音声と視覚データのみを用いて信頼性の高い3D検出結果を提供するシステムの能力を実証する実験を行った。我々は、収集したデータセットとソースコードをコミュニティ向けにオンラインで公開し、ロボット知覚システムの分野でのさらなる発展を促す予定である。
要約(オリジナル)
In this study, we introduce AV-PedAware, a self-supervised audio-visual fusion system designed to improve dynamic pedestrian awareness for robotics applications. Pedestrian awareness is a critical requirement in many robotics applications. However, traditional approaches that rely on cameras and LIDARs to cover multiple views can be expensive and susceptible to issues such as changes in illumination, occlusion, and weather conditions. Our proposed solution replicates human perception for 3D pedestrian detection using low-cost audio and visual fusion. This study represents the first attempt to employ audio-visual fusion to monitor footstep sounds for the purpose of predicting the movements of pedestrians in the vicinity. The system is trained through self-supervised learning based on LIDAR-generated labels, making it a cost-effective alternative to LIDAR-based pedestrian awareness. AV-PedAware achieves comparable results to LIDAR-based systems at a fraction of the cost. By utilizing an attention mechanism, it can handle dynamic lighting and occlusions, overcoming the limitations of traditional LIDAR and camera-based systems. To evaluate our approach’s effectiveness, we collected a new multimodal pedestrian detection dataset and conducted experiments that demonstrate the system’s ability to provide reliable 3D detection results using only audio and visual data, even in extreme visual conditions. We will make our collected dataset and source code available online for the community to encourage further development in the field of robotics perception systems.
arxiv情報
著者 | Yizhuo Yang,Shenghai Yuan,Muqing Cao,Jianfei Yang,Lihua Xie |
発行日 | 2025-04-04 10:55:28+00:00 |
arxivサイト | arxiv_id(pdf) |