要約
私たちは、ブラインド オーディオ録音と 3D シーン情報を組み合わせて、新しいビューの音響合成を行う利点を調査します。
2 ~ 4 個のマイクからの音声録音と、複数の未知の音源を含むシーンの 3D ジオメトリとマテリアルを考慮して、シーン内の任意の場所の音を推定します。
私たちは、新しい視点による音響合成の主な課題を、音源定位、分離、残響除去であると特定しています。
エンドツーエンドのネットワークを単純にトレーニングしても高品質の結果は得られませんが、3D で再構成された部屋から得られた部屋インパルス応答 (RIR) を組み込むことで、同じネットワークがこれらのタスクに共同で取り組むことができることを示しました。
私たちの手法は、個々のタスクに合わせて設計された既存の手法を上回っており、3D視覚情報の活用において有効であることが実証されています。
Matterport3D-NVAS データセットのシミュレーション調査では、私たちのモデルは音源位置特定においてほぼ完璧な精度を達成し、音源分離と残響除去に関して PSNR 26.44 dB、SDR 14.23 dB を達成し、結果として PSNR は 25.55 dB、SDR は 25.55 dB となりました。
斬新な視点の音響合成で 14.20 dB。
コード、事前トレーニングされたモデル、およびビデオ結果は、プロジェクト Web ページ (https://github.com/apple/ml-nvas3d) で入手できます。
要約(オリジナル)
We investigate the benefit of combining blind audio recordings with 3D scene information for novel-view acoustic synthesis. Given audio recordings from 2-4 microphones and the 3D geometry and material of a scene containing multiple unknown sound sources, we estimate the sound anywhere in the scene. We identify the main challenges of novel-view acoustic synthesis as sound source localization, separation, and dereverberation. While naively training an end-to-end network fails to produce high-quality results, we show that incorporating room impulse responses (RIRs) derived from 3D reconstructed rooms enables the same network to jointly tackle these tasks. Our method outperforms existing methods designed for the individual tasks, demonstrating its effectiveness at utilizing 3D visual information. In a simulated study on the Matterport3D-NVAS dataset, our model achieves near-perfect accuracy on source localization, a PSNR of 26.44 dB and a SDR of 14.23 dB for source separation and dereverberation, resulting in a PSNR of 25.55 dB and a SDR of 14.20 dB on novel-view acoustic synthesis. Code, pretrained model, and video results are available on the project webpage (https://github.com/apple/ml-nvas3d).
arxiv情報
著者 | Byeongjoo Ahn,Karren Yang,Brian Hamilton,Jonathan Sheaffer,Anurag Ranjan,Miguel Sarabia,Oncel Tuzel,Jen-Hao Rick Chang |
発行日 | 2023-10-23 17:34:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google