NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields

要約

サウンドは、人間の知覚において大きな役割を果たします。
ビジョンに加えて、周囲を理解するための重要な情報を提供します。
神経暗黙の表現の進歩にもかかわらず、視覚的なシーンと一致する音響学を学ぶことは依然として課題です。
NERAFを提案します。これは、音響界と放射磁場を共同で学習する方法です。
NERAFは、3Dシーンの幾何学的および放射界からの外観の前に音響場を条件付けすることにより、新しい位置での新しいビューと空間化された部屋の衝動応答(RIR)の両方を統合します。
生成されたRIRは、任意のオーディオ信号をAuralizeするために適用できます。
各モダリティは、独立して空間的に異なる位置でレンダリングでき、より大きな汎用性を提供できます。
NERAFは、サウンドスペースとRAFデータセットで高品質のオーディオを生成し、以前の方法よりも大幅なパフォーマンスの改善を達成しながら、データ効率が高いことを実証します。
さらに、NERAFは、クロスモーダル学習を通じてまばらなデータで訓練された複雑なシーンの新しいビューの統合を強化します。
NERAFはNerfstudioモジュールとして設計されており、現実的な視聴覚生成への便利なアクセスを提供します。

要約(オリジナル)

Sound plays a major role in human perception. Along with vision, it provides essential information for understanding our surroundings. Despite advances in neural implicit representations, learning acoustics that align with visual scenes remains a challenge. We propose NeRAF, a method that jointly learns acoustic and radiance fields. NeRAF synthesizes both novel views and spatialized room impulse responses (RIR) at new positions by conditioning the acoustic field on 3D scene geometric and appearance priors from the radiance field. The generated RIR can be applied to auralize any audio signal. Each modality can be rendered independently and at spatially distinct positions, offering greater versatility. We demonstrate that NeRAF generates high-quality audio on SoundSpaces and RAF datasets, achieving significant performance improvements over prior methods while being more data-efficient. Additionally, NeRAF enhances novel view synthesis of complex scenes trained with sparse data through cross-modal learning. NeRAF is designed as a Nerfstudio module, providing convenient access to realistic audio-visual generation.

arxiv情報

著者 Amandine Brunetto,Sascha Hornauer,Fabien Moutarde
発行日 2025-01-28 17:28:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク