The Audio-Visual BatVision Dataset for Research on Sight and Sound

要約

視覚研究は、画像とビデオのデータセットによって推進され、私たちの世界を理解することに目覚ましい成功を収めました。
レーダー、LiDAR、カメラからのセンサー データは、少なくとも 10 年間、ロボット工学と自動運転の研究を支えています。
ただし、視覚センサーは状況によっては失敗する可能性がありますが、最近では、音声がセンサー データを補完する可能性が示されています。
3D アパート モデルでシミュレートされた室内インパルス応答 (RIR) は、コミュニティのベンチマーク データセットとなり、さまざまな視聴覚研究を促進しました。
シミュレーションでは、ニューラル ネットワークでコウモリのような知覚を学習することにより、音から深度を予測できます。
同時に、RGB-D 画像と鳴き声のエコーを使用して、同じことを実際に実現しました。
コウモリの知覚を生体模倣することは刺激的な新しい方向性ですが、その可能性を探るためには専用のデータセットが必要です。
そのため、BatVision データセットを収集して、複雑な現実世界のシーンで大規模なエコーをコミュニティに提供しました。
ロボットに、さえずりを発するスピーカーと、その反響を録音するためのバイノーラル マイクを装備しました。
同じ視点からの同期された RGB-D 画像は、通過した空間の視覚的なラベルを提供します。
私たちは、現代的な米国のオフィス スペースから歴史的なフランスの大学の敷地まで、屋内と屋外のさまざまな建築をサンプリングしました。
このデータセットにより、ロボットの反響定位、一般的な視聴覚タスク、およびシミュレートされたデータでは利用できない音の現象に関する研究が可能になります。
オーディオのみの深度予測の有望な結果を示し、シミュレートされたデータ用に開発された最先端の作業がデータセットでも成功する方法を示します。
データは https://github.com/AmandineBtto/Batvision-Dataset でダウンロードできます

要約(オリジナル)

Vision research showed remarkable success in understanding our world, propelled by datasets of images and videos. Sensor data from radar, LiDAR and cameras supports research in robotics and autonomous driving for at least a decade. However, while visual sensors may fail in some conditions, sound has recently shown potential to complement sensor data. Simulated room impulse responses (RIR) in 3D apartment-models became a benchmark dataset for the community, fostering a range of audiovisual research. In simulation, depth is predictable from sound, by learning bat-like perception with a neural network. Concurrently, the same was achieved in reality by using RGB-D images and echoes of chirping sounds. Biomimicking bat perception is an exciting new direction but needs dedicated datasets to explore the potential. Therefore, we collected the BatVision dataset to provide large-scale echoes in complex real-world scenes to the community. We equipped a robot with a speaker to emit chirps and a binaural microphone to record their echoes. Synchronized RGB-D images from the same perspective provide visual labels of traversed spaces. We sampled modern US office spaces to historic French university grounds, indoor and outdoor with large architectural variety. This dataset will allow research on robot echolocation, general audio-visual tasks and sound phaenomena unavailable in simulated data. We show promising results for audio-only depth prediction and show how state-of-the-art work developed for simulated data can also succeed on our dataset. The data can be downloaded at https://github.com/AmandineBtto/Batvision-Dataset

arxiv情報

著者 Brunetto Amandine,Hornauer Sascha,Yu Stella X.,Moutarde Fabien
発行日 2023-03-13 16:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク