Listen2Scene: Interactive material-aware binaural soundbpropagation for reconstructed 3D scenes

要約

タイトル: Listen2Scene:再構築された3Dシーンのためのインタラクティブな材質に応じたバイノーラル音響伝搬

要約:

– Listen2Sceneは、仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドのバイノーラルオーディオレンダリングアプローチです。
– 本研究では、リアル環境の3Dモデルに対して音響効果を生成するための新しいニューラルネットワークベースのバイノーラル音響伝搬方法を提案しています。
– 生成された音響効果をクリーンなオーディオやドライオーディオに畳み込むことで、リアル環境に対応するオーディオをレンダリングすることができます。
– 本研究では、3Dシーンの材質とトポロジー情報を使用してシーンの潜在ベクトルを生成するグラフニューラルネットワークを提案しています。
– さらに、条件付き生成対抗ネットワーク(CGAN)を使用して、シーンの潜在ベクトルから音響効果を生成します。
– 我々のネットワークは、再構築された3Dメッシュモデルの穴やその他のアーティファクトを扱うことができます。
– 現在の位置を与えることで、我々の学習ベースのバイノーラル音響伝搬アプローチは、NVIDIA GeForce RTX 2080 Ti GPU上で0.1ミリ秒で音響効果を生成することができ、複数のソースを簡単に扱うことができます。
– 我々は、幾何学的音響伝搬アルゴリズムを使用して生成されたバイノーラル音響効果とキャプチャされたリアルな音響効果で我々のアプローチの正確性を評価しました。
– また、知覚的評価を行い、先行する学習ベースの音響伝搬アルゴリズムに比べて、我々のアプローチによってレンダリングされたオーディオがより信憑性が高いことが観察されました。

要約(オリジナル)

We present an end-to-end binaural audio rendering approach (Listen2Scene) for virtual reality (VR) and augmented reality (AR) applications. We propose a novel neural-network-based binaural sound propagation method to generate acoustic effects for 3D models of real environments. Any clean audio or dry audio can be convolved with the generated acoustic effects to render audio corresponding to the real environment. We propose a graph neural network that uses both the material and the topology information of the 3D scenes and generates a scene latent vector. Moreover, we use a conditional generative adversarial network (CGAN) to generate acoustic effects from the scene latent vector. Our network is able to handle holes or other artifacts in the reconstructed 3D mesh model. We present an efficient cost function to the generator network to incorporate spatial audio effects. Given the source and the listener position, our learning-based binaural sound propagation approach can generate an acoustic effect in 0.1 milliseconds on an NVIDIA GeForce RTX 2080 Ti GPU and can easily handle multiple sources. We have evaluated the accuracy of our approach with binaural acoustic effects generated using an interactive geometric sound propagation algorithm and captured real acoustic effects. We also performed a perceptual evaluation and observed that the audio rendered by our approach is more plausible as compared to audio rendered using prior learning-based sound propagation algorithms.

arxiv情報

著者 Anton Ratnarajah,Dinesh Manocha
発行日 2023-04-25 15:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク