AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis

要約

視聴覚シーンを記録する機械は、新しい位置や新しい視点で、現実的で一致する視聴覚体験を生み出すことができるでしょうか?
私たちは、新しいタスクである現実世界のオーディオビジュアルシーンの合成と、マルチモーダル学習のための初の NeRF ベースのアプローチを研究することで、この問題に答えます。
具体的には、オーディオビジュアル シーンのビデオ記録が与えられた場合、そのタスクは、そのシーン内の任意の新しいカメラの軌跡に沿って空間オーディオを備えた新しいビデオを合成することです。
我々は、オーディオ伝播に関する事前の知識を NeRF に統合する音響認識オーディオ生成モジュールを提案します。このモジュールでは、オーディオ生成を視覚環境の 3D ジオメトリおよびマテリアル プロパティと暗黙的に関連付けます。
さらに、音源に対する視線方向を表現する座標変換モジュールを提示し、モデルが音源中心の音場を学習できるようにします。
この新しいタスクの研究を促進するために、高品質のリアルワールド オーディオビジュアル シーン (RWAVS) データセットを収集します。
この現実世界のデータセットとシミュレーションベースの SoundSpaces データセットで私たちの方法の利点を実証します。

要約(オリジナル)

Can machines recording an audio-visual scene produce realistic, matching audio-visual experiences at novel positions and novel view directions? We answer it by studying a new task — real-world audio-visual scene synthesis — and a first-of-its-kind NeRF-based approach for multimodal learning. Concretely, given a video recording of an audio-visual scene, the task is to synthesize new videos with spatial audios along arbitrary novel camera trajectories in that scene. We propose an acoustic-aware audio generation module that integrates prior knowledge of audio propagation into NeRF, in which we implicitly associate audio generation with the 3D geometry and material properties of a visual environment. Furthermore, we present a coordinate transformation module that expresses a view direction relative to the sound source, enabling the model to learn sound source-centric acoustic fields. To facilitate the study of this new task, we collect a high-quality Real-World Audio-Visual Scene (RWAVS) dataset. We demonstrate the advantages of our method on this real-world dataset and the simulation-based SoundSpaces dataset.

arxiv情報

著者 Susan Liang,Chao Huang,Yapeng Tian,Anurag Kumar,Chenliang Xu
発行日 2023-10-16 15:11:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS パーマリンク