要約
この研究では、ロボット工学アプリケーションの動的な歩行者の認識を向上させるために設計された自己監視型オーディオビジュアル融合システムである AV-PedAware を紹介します。
歩行者の認識は、多くのロボット工学アプリケーションにおいて重要な要件です。
ただし、複数のビューをカバーするためにカメラと LIDAR に依存する従来のアプローチは高価であり、照明、オクルージョン、気象条件の変化などの問題の影響を受けやすい可能性があります。
私たちが提案するソリューションは、低コストの音声と視覚の融合を使用して、人間の知覚を再現して 3D 歩行者検出を実現します。
この研究は、周囲の歩行者の動きを予測する目的で足音を監視するために視聴覚融合を採用する最初の試みを表しています。
このシステムは、LIDAR で生成されたラベルに基づいて自己教師あり学習を通じてトレーニングされるため、LIDAR ベースの歩行者認識に代わる費用対効果の高い代替手段となります。
AV-PedAware は、わずかなコストで LIDAR ベースのシステムと同等の結果を達成します。
アテンション メカニズムを利用することで、動的なライティングとオクルージョンを処理でき、従来の LIDAR やカメラベースのシステムの制限を克服できます。
私たちのアプローチの有効性を評価するために、新しいマルチモーダル歩行者検出データセットを収集し、極端な視覚条件下でも音声と視覚データのみを使用して信頼性の高い 3D 検出結果を提供するシステムの能力を実証する実験を実施しました。
私たちは、ロボット認識システムの分野でのさらなる開発を促進するために、収集したデータセットとソースコードをコミュニティでオンラインで利用できるようにします。
要約(オリジナル)
In this study, we introduce AV-PedAware, a self-supervised audio-visual fusion system designed to improve dynamic pedestrian awareness for robotics applications. Pedestrian awareness is a critical requirement in many robotics applications. However, traditional approaches that rely on cameras and LIDARs to cover multiple views can be expensive and susceptible to issues such as changes in illumination, occlusion, and weather conditions. Our proposed solution replicates human perception for 3D pedestrian detection using low-cost audio and visual fusion. This study represents the first attempt to employ audio-visual fusion to monitor footstep sounds for the purpose of predicting the movements of pedestrians in the vicinity. The system is trained through self-supervised learning based on LIDAR-generated labels, making it a cost-effective alternative to LIDAR-based pedestrian awareness. AV-PedAware achieves comparable results to LIDAR-based systems at a fraction of the cost. By utilizing an attention mechanism, it can handle dynamic lighting and occlusions, overcoming the limitations of traditional LIDAR and camera-based systems. To evaluate our approach’s effectiveness, we collected a new multimodal pedestrian detection dataset and conducted experiments that demonstrate the system’s ability to provide reliable 3D detection results using only audio and visual data, even in extreme visual conditions. We will make our collected dataset and source code available online for the community to encourage further development in the field of robotics perception systems.
arxiv情報
著者 | Yizhuo Yang,Shenghai Yuan,Muqing Cao,Jianfei Yang,Lihua Xie |
発行日 | 2024-11-11 08:36:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google