Differentiable Room Acoustic Rendering with Multi-View Vision Priors

要約

空間オーディオによって可能になった没入型の音響体験は、現実的な仮想環境を作成する際に視覚的な側面と同じくらい重要です。
ただし、部屋の衝動応答の推定の既存の方法は、データを要求する学習ベースのモデルまたは計算高価な物理ベースのモデリングのいずれかに依存しています。
この作業では、マルチビュー画像から抽出された視覚的なキューと物理ベースの部屋のアコースティックレンダリングのためのアコースティックビームトレースを活用するフレームワークであるオーディオビジュアル微分ルームアコースティックレンダリング(AV-DAR)を紹介します。
2つのデータセットからの6つの実際の環境にわたる実験は、マルチモーダルの物理ベースのアプローチが効率的で解釈可能で、正確であり、一連の以前の方法を大幅に上回ることを示しています。
特に、実際のアコースティックフィールドデータセットでは、AV-DARは、同じスケールで訓練された場合、16.6%から50.9%の範囲の相対的な利益を提供する一方で、10倍のデータでトレーニングされたモデルに匹敵するパフォーマンスを実現します。

要約(オリジナル)

An immersive acoustic experience enabled by spatial audio is just as crucial as the visual aspect in creating realistic virtual environments. However, existing methods for room impulse response estimation rely either on data-demanding learning-based models or computationally expensive physics-based modeling. In this work, we introduce Audio-Visual Differentiable Room Acoustic Rendering (AV-DAR), a framework that leverages visual cues extracted from multi-view images and acoustic beam tracing for physics-based room acoustic rendering. Experiments across six real-world environments from two datasets demonstrate that our multimodal, physics-based approach is efficient, interpretable, and accurate, significantly outperforming a series of prior methods. Notably, on the Real Acoustic Field dataset, AV-DAR achieves comparable performance to models trained on 10 times more data while delivering relative gains ranging from 16.6% to 50.9% when trained at the same scale.

arxiv情報

著者 Derong Jin,Ruohan Gao
発行日 2025-04-30 17:55:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD パーマリンク