要約
音は人間の知覚において重要な役割を果たし、環境を理解するために視覚とともに重要なシーン情報を提供します。
神経の暗黙的表現は進歩しているにもかかわらず、視覚的なシーンに一致する音響を学習することは依然として困難です。
我々は音響場と放射場を共同学習する手法NeRAFを提案する。
NeRAF は、現実的なオーディオビジュアル生成に簡単にアクセスできるようにするための Nerfstudio モジュールとして設計されています。
新しいビューと空間化されたオーディオの両方を新しい位置で合成し、放射フィールド機能を利用して 3D シーン情報で音場を調整します。
推論時には、各モダリティを独立して空間的に離れた位置にレンダリングできるため、より高い汎用性が得られます。
SoundSpaces データセットに対するこの方法の利点を示します。
NeRAF は、データ効率を高めながら、以前の作品に比べてパフォーマンスが大幅に向上しました。
さらに、NeRAF は、クロスモーダル学習を通じて、スパース データでトレーニングされた複雑なシーンの新しいビュー合成を強化します。
要約(オリジナル)
Sound plays a major role in human perception, providing essential scene information alongside vision for understanding our environment. Despite progress in neural implicit representations, learning acoustics that match a visual scene is still challenging. We propose NeRAF, a method that jointly learns acoustic and radiance fields. NeRAF is designed as a Nerfstudio module for convenient access to realistic audio-visual generation. It synthesizes both novel views and spatialized audio at new positions, leveraging radiance field capabilities to condition the acoustic field with 3D scene information. At inference, each modality can be rendered independently and at spatially separated positions, providing greater versatility. We demonstrate the advantages of our method on the SoundSpaces dataset. NeRAF achieves substantial performance improvements over previous works while being more data-efficient. Furthermore, NeRAF enhances novel view synthesis of complex scenes trained with sparse data through cross-modal learning.
arxiv情報
著者 | Amandine Brunetto,Sascha Hornauer,Fabien Moutarde |
発行日 | 2024-05-28 14:17:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google