Listen2Scene: Interactive material-aware binaural sound propagation for reconstructed 3D scenes




– Listen2Sceneは、仮想現実(VR)や拡張現実(AR)アプリケーションのための一連のバイノーラル音声レンダリングアプローチです。
– 我々は、リアル環境の3Dモデルの音響効果を生成するための新しいニューラルネットワークベースのバイノーラル音声伝播手法を提案します。
– 生成された音響効果とクリーンな音声またはドライな音声を畳み込むことで、リアルな環境に対応する音声をレンダリングすることができます。
– 物質情報とトポロジー情報を組み合わせたグラフニューラルネットワークを提案し、シーン潜在ベクトルを生成します。
– 条件付き生成対抗ネットワーク(CGAN)を使用して、シーン潜在ベクトルから音響効果を生成します。
– 再構成された3Dメッシュモデルに穴やアーティファクトがあっても扱えるネットワークです。
– 空間音響効果を組み込んだ効率的なコスト関数を提供します。
– 学習ベースのバイノーラル音声伝播手法は、ソースとリスナーの位置を与えると0.1ミリ秒で音響効果を生成でき、複数のソースを簡単に処理できます。
– 真の音響効果を捕捉した対話的幾何音響伝播アルゴリズムを使用して生成されたバイノーラル音響効果で我々のアプローチの精度を評価し、知覚的評価も実施しました。結果、先行する学習ベースの音響伝播アルゴリズムよりも、我々のアプローチによる音声のレンダリングがより現実的であることがわかりました。


We present an end-to-end binaural audio rendering approach (Listen2Scene) for virtual reality (VR) and augmented reality (AR) applications. We propose a novel neural-network-based binaural sound propagation method to generate acoustic effects for 3D models of real environments. Any clean audio or dry audio can be convolved with the generated acoustic effects to render audio corresponding to the real environment. We propose a graph neural network that uses both the material and the topology information of the 3D scenes and generates a scene latent vector. Moreover, we use a conditional generative adversarial network (CGAN) to generate acoustic effects from the scene latent vector. Our network is able to handle holes or other artifacts in the reconstructed 3D mesh model. We present an efficient cost function to the generator network to incorporate spatial audio effects. Given the source and the listener position, our learning-based binaural sound propagation approach can generate an acoustic effect in 0.1 milliseconds on an NVIDIA GeForce RTX 2080 Ti GPU and can easily handle multiple sources. We have evaluated the accuracy of our approach with binaural acoustic effects generated using an interactive geometric sound propagation algorithm and captured real acoustic effects. We also performed a perceptual evaluation and observed that the audio rendered by our approach is more plausible as compared to audio rendered using prior learning-based sound propagation algorithms.


著者 Anton Ratnarajah,Dinesh Manocha
発行日 2023-04-26 03:44:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク