Novel-View Acoustic Synthesis

要約

新規ビュー音響合成 (NVAS) タスクを導入します。ソースの視点で観察された視覚と音声が与えられた場合、目に見えないターゲットの視点からそのシーンの \emph{音} を合成できますか?
ニューラル レンダリング アプローチを提案します: 入力オーディオ ビジュアル キューを分析することによって、空間内の任意の点の音を合成することを学習する Visually-Guided Acoustic Synthesis (ViGAS) ネットワーク。
このタスクのベンチマークを行うために、2 つの初めての大規模なマルチビュー オーディオビジュアル データセット (1 つは合成、もう 1 つは本物) を収集します。
私たちのモデルが空間的な手がかりについてうまく推論し、両方のデータセットで忠実なオーディオを合成することを示します。
私たちの知る限りでは、この作業は、AR/VR からアートやデザインに至るまでのエキサイティングな潜在的アプリケーションを持つ、斬新なビューの音響合成タスクを解決するための最初の定式化、データセット、およびアプローチを表しています。
この作業によって解き放たれた新しいビュー合成の未来は、ビデオからのマルチモーダル学習にあると考えています。

要約(オリジナル)

We introduce the novel-view acoustic synthesis (NVAS) task: given the sight and sound observed at a source viewpoint, can we synthesize the \emph{sound} of that scene from an unseen target viewpoint? We propose a neural rendering approach: Visually-Guided Acoustic Synthesis (ViGAS) network that learns to synthesize the sound of an arbitrary point in space by analyzing the input audio-visual cues. To benchmark this task, we collect two first-of-their-kind large-scale multi-view audio-visual datasets, one synthetic and one real. We show that our model successfully reasons about the spatial cues and synthesizes faithful audio on both datasets. To our knowledge, this work represents the very first formulation, dataset, and approach to solve the novel-view acoustic synthesis task, which has exciting potential applications ranging from AR/VR to art and design. Unlocked by this work, we believe that the future of novel-view synthesis is in multi-modal learning from videos.

arxiv情報

著者 Changan Chen,Alexander Richard,Roman Shapovalov,Vamsi Krishna Ithapu,Natalia Neverova,Kristen Grauman,Andrea Vedaldi
発行日 2023-01-20 18:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク