The Audio-Visual BatVision Dataset for Research on Sight and Sound

要約

視覚の研究は、画像やビデオのデータセットに後押しされ、私たちの世界を理解する上で目覚ましい成功を収めた。レーダー、LiDAR、カメラからのセンサーデータは、少なくとも10年間はロボット工学や自律走行における研究を支えてきた。しかし、視覚センサーが条件によっては故障する可能性がある一方で、音は最近、センサーデータを補完する可能性を示している。3Dマンションモデルでシミュレーションされた部屋のインパルス応答(RIR)は、コミュニティのベンチマークデータセットとなり、様々な視聴覚研究を促進しました。シミュレーションでは、ニューラルネットワークでコウモリのような知覚を学習することで、音から奥行きを予測することができる。同時に、RGB-D画像とさえずり音のエコーを使うことで、現実でも同様のことが実現された。コウモリの知覚をバイオミミックすることはエキサイティングな新しい方向性だが、その可能性を探るには専用のデータセットが必要だ。そこで我々は、複雑な実世界のシーンにおける大規模なエコーをコミュニティに提供するため、BatVisionデータセットを収集した。我々は、ロボットに鳴き声を発するスピーカーと、そのエコーを記録するバイノーラルマイクロホンを装備した。同じ視点からの同期されたRGB-D画像は、横断された空間の視覚的ラベルを提供する。我々は、近代的な米国のオフィス空間から、歴史的なフランスの大学敷地、屋内、屋外、多種多様な建築物をサンプルとした。このデータセットにより、ロボットのエコーロケーション、一般的なオーディオビジュアル・タスク、シミュレーション・データでは利用できない音のph{ae}現象の研究が可能になる。音声のみの奥行き予測で有望な結果を示し、シミュレーションデータ用に開発された最先端の研究が、我々のデータセットでも成功できることを示す。プロジェクトページ: https://amandinebtto.github.io/Batvision-Dataset/

要約(オリジナル)

Vision research showed remarkable success in understanding our world, propelled by datasets of images and videos. Sensor data from radar, LiDAR and cameras supports research in robotics and autonomous driving for at least a decade. However, while visual sensors may fail in some conditions, sound has recently shown potential to complement sensor data. Simulated room impulse responses (RIR) in 3D apartment-models became a benchmark dataset for the community, fostering a range of audiovisual research. In simulation, depth is predictable from sound, by learning bat-like perception with a neural network. Concurrently, the same was achieved in reality by using RGB-D images and echoes of chirping sounds. Biomimicking bat perception is an exciting new direction but needs dedicated datasets to explore the potential. Therefore, we collected the BatVision dataset to provide large-scale echoes in complex real-world scenes to the community. We equipped a robot with a speaker to emit chirps and a binaural microphone to record their echoes. Synchronized RGB-D images from the same perspective provide visual labels of traversed spaces. We sampled modern US office spaces to historic French university grounds, indoor and outdoor with large architectural variety. This dataset will allow research on robot echolocation, general audio-visual tasks and sound ph{\ae}nomena unavailable in simulated data. We show promising results for audio-only depth prediction and show how state-of-the-art work developed for simulated data can also succeed on our dataset. Project page: https://amandinebtto.github.io/Batvision-Dataset/

arxiv情報

著者 Amandine Brunetto,Sascha Hornauer,Stella X. Yu,Fabien Moutarde
発行日 2024-03-01 09:11:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク