Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark

要約

複数のモダリティから実際の音響室データをキャプチャする Real Acoustic Fields (RAF) と呼ばれる新しいデータセットを紹介します。
このデータセットには、マルチビュー画像と組み合わせた高品質で高密度にキャプチャされた室内インパルス応答データと、室内の放音者と聴取者の正確な 6DoF 姿勢追跡データが含まれています。
私たちはこのデータセットを使用して、以前は合成データに依存していた新しい視点の音響合成とインパルス応答生成のための既存の方法を評価しました。
評価では、複数の基準に照らして既存のオーディオおよびオーディオビジュアル モデルを徹底的に評価し、実世界のデータでのパフォーマンスを向上させるための設定を提案しました。
また、神経音場モデルに視覚データ (画像と深さ) を組み込むことの影響を調査する実験も行いました。
さらに、モデルがシミュレートされたデータで事前トレーニングされ、まばらな現実世界のデータで微調整される単純な sim2real アプローチの有効性を実証しました。その結果、少数ショット学習アプローチが大幅に改善されました。
RAF は、高密度にキャプチャされた室内音響データを提供する最初のデータセットであり、オーディオおよびオーディオビジュアルの神経音場モデリング技術に取り組む研究者にとって理想的なリソースです。
デモとデータセットはプロジェクト ページから入手できます: https://facebookresearch.github.io/real-acoustic-fields/

要約(オリジナル)

We present a new dataset called Real Acoustic Fields (RAF) that captures real acoustic room data from multiple modalities. The dataset includes high-quality and densely captured room impulse response data paired with multi-view images, and precise 6DoF pose tracking data for sound emitters and listeners in the rooms. We used this dataset to evaluate existing methods for novel-view acoustic synthesis and impulse response generation which previously relied on synthetic data. In our evaluation, we thoroughly assessed existing audio and audio-visual models against multiple criteria and proposed settings to enhance their performance on real-world data. We also conducted experiments to investigate the impact of incorporating visual data (i.e., images and depth) into neural acoustic field models. Additionally, we demonstrated the effectiveness of a simple sim2real approach, where a model is pre-trained with simulated data and fine-tuned with sparse real-world data, resulting in significant improvements in the few-shot learning approach. RAF is the first dataset to provide densely captured room acoustic data, making it an ideal resource for researchers working on audio and audio-visual neural acoustic field modeling techniques. Demos and datasets are available on our project page: https://facebookresearch.github.io/real-acoustic-fields/

arxiv情報

著者 Ziyang Chen,Israel D. Gebru,Christian Richardt,Anurag Kumar,William Laney,Andrew Owens,Alexander Richard
発行日 2024-03-27 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク