Hearing Anything Anywhere

要約

近年、3D コンピュータ ビジョンとコンピュータ グラフィックスが大幅に進歩し、多数の Mixed Reality (XR) アプリケーションで現実世界の 3D 環境を仮想化できるツールが登場しています。
しかし、没入型の視覚体験と並んで、没入型の聴覚体験も環境の全体的な認識に不可欠です。
この論文では、(約 12 個の)室内インパルス応答 (RIR) 録音のまばらなセットとシーンの平面再構築のみを与えられた任意の環境の空間音響特性を再構築することを目的としています。この設定は一般のユーザーが簡単に達成できます。

この目的を達成するために、音源の指向性や表面反射率など、シーンの顕著な音響特徴の解釈可能なパラメトリック モデルを備えた微分可能な RIR レンダリング フレームワークである DiffRIR を導入します。
これにより、あらゆるソースオーディオを使用して、空間を通じて新しい聴覚体験を合成することができます。
私たちの方法を評価するために、4 つの多様な実際の環境で RIR 録音と音楽のデータセットを収集します。
私たちのモデルは、目に見えない場所でのモノラルおよびバイノーラル RIR と音楽のレンダリングにおいて最先端のベースラインを上回り、音源とシーン内の表面の音響特性を特徴付ける物理的に解釈可能なパラメーターを学習することを示します。

要約(オリジナル)

Recent years have seen immense progress in 3D computer vision and computer graphics, with emerging tools that can virtualize real-world 3D environments for numerous Mixed Reality (XR) applications. However, alongside immersive visual experiences, immersive auditory experiences are equally vital to our holistic perception of an environment. In this paper, we aim to reconstruct the spatial acoustic characteristics of an arbitrary environment given only a sparse set of (roughly 12) room impulse response (RIR) recordings and a planar reconstruction of the scene, a setup that is easily achievable by ordinary users. To this end, we introduce DiffRIR, a differentiable RIR rendering framework with interpretable parametric models of salient acoustic features of the scene, including sound source directivity and surface reflectivity. This allows us to synthesize novel auditory experiences through the space with any source audio. To evaluate our method, we collect a dataset of RIR recordings and music in four diverse, real environments. We show that our model outperforms state-ofthe-art baselines on rendering monaural and binaural RIRs and music at unseen locations, and learns physically interpretable parameters characterizing acoustic properties of the sound source and surfaces in the scene.

arxiv情報

著者 Mason Wang,Ryosuke Sawata,Samuel Clarke,Ruohan Gao,Shangzhe Wu,Jiajun Wu
発行日 2024-06-11 17:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS, I.2.10 パーマリンク