SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning

要約

3D環境向けのオンザフライのジオメトリベースのオーディオレンダリング用のプラットフォームであるSoundSpaces2.0を紹介します。
実世界の環境の3Dメッシュが与えられると、SoundSpacesは、任意のマイク位置からキャプチャされた任意のサウンドに対して非常にリアルな音響を生成できます。
既存の3Dビジュアルアセットとともに、オーディオビジュアルナビゲーション、マッピング、ソースのローカリゼーションと分離、音響マッチングなど、一連のオーディオビジュアルリサーチタスクをサポートします。
既存のリソースと比較して、SoundSpaces 2.0には、継続的な空間サンプリング、新しい環境への一般化、および構成可能なマイクと材料のプロパティを可能にするという利点があります。
私たちの知る限り、これは、具体化された学習に使用するのに十分な速度でありながら、高い忠実度とリアリズムを提供する最初のジオメトリベースの音響シミュレーションです。
シミュレーターの特性を紹介し、実際のオーディオ測定値に対してそのパフォーマンスをベンチマークします。
さらに、具体化されたナビゲーションと遠距離場の自動音声認識をカバーする2つのダウンストリームタスクを通じて、後者のsim2realパフォーマンスを強調します。
SoundSpaces 2.0は、見ることも聞くこともできる知覚システムの幅広い研究を促進するために公開されています。

要約(オリジナル)

We introduce SoundSpaces 2.0, a platform for on-the-fly geometry-based audio rendering for 3D environments. Given a 3D mesh of a real-world environment, SoundSpaces can generate highly realistic acoustics for arbitrary sounds captured from arbitrary microphone locations. Together with existing 3D visual assets, it supports an array of audio-visual research tasks, such as audio-visual navigation, mapping, source localization and separation, and acoustic matching. Compared to existing resources, SoundSpaces 2.0 has the advantages of allowing continuous spatial sampling, generalization to novel environments, and configurable microphone and material properties. To our best knowledge, this is the first geometry-based acoustic simulation that offers high fidelity and realism while also being fast enough to use for embodied learning. We showcase the simulator’s properties and benchmark its performance against real-world audio measurements. In addition, through two downstream tasks covering embodied navigation and far-field automatic speech recognition, highlighting sim2real performance for the latter. SoundSpaces 2.0 is publicly available to facilitate wider research for perceptual systems that can both see and hear.

arxiv情報

著者 Changan Chen,Carl Schissler,Sanchit Garg,Philip Kobernik,Alexander Clegg,Paul Calamia,Dhruv Batra,Philip W Robinson,Kristen Grauman
発行日 2022-06-16 17:17:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク