Few-Shot Audio-Visual Learning of Environment Acoustics

要約

ルームインパルス応答(RIR)関数は、周囲の物理環境がリスナーに聞こえる音をどのように変換するかを捕らえ、AR、VR、ロボティクスなどの様々なアプリケーションに影響を与える。RIRを推定する従来の方法は、環境全体にわたって密な形状および/または音響測定を前提としているのに対し、我々は、空間内で観測された画像とエコーの疎なセットに基づいてRIRを推定する方法を模索する。そのために、自己注意を用いて豊かな音響コンテキストを構築し、交差注意によって任意のクエリの音源-受信位置のRIRを予測する変換器を用いた手法を導入する。さらに、RIR予測とターゲットとの間の音響シグネチャの一致度を向上させる新しい学習目標を設計する。3D環境のための最先端のオーディオビジュアルシミュレータを用いた実験において、我々は、本手法が任意のRIRをうまく生成し、最先端の手法を上回り、従来の手法とは大きく異なる、数発の方法で新しい環境に汎化することを実証する。プロジェクト: http://vision.cs.utexas.edu/projects/fs_rir.

要約(オリジナル)

Room impulse response (RIR) functions capture how the surrounding physical environment transforms the sounds heard by a listener, with implications for various applications in AR, VR, and robotics. Whereas traditional methods to estimate RIRs assume dense geometry and/or sound measurements throughout the environment, we explore how to infer RIRs based on a sparse set of images and echoes observed in the space. Towards that goal, we introduce a transformer-based method that uses self-attention to build a rich acoustic context, then predicts RIRs of arbitrary query source-receiver locations through cross-attention. Additionally, we design a novel training objective that improves the match in the acoustic signature between the RIR predictions and the targets. In experiments using a state-of-the-art audio-visual simulator for 3D environments, we demonstrate that our method successfully generates arbitrary RIRs, outperforming state-of-the-art methods and–in a major departure from traditional methods–generalizing to novel environments in a few-shot manner. Project: http://vision.cs.utexas.edu/projects/fs_rir.

arxiv情報

著者 Sagnik Majumder,Changan Chen,Ziad Al-Halah,Kristen Grauman
発行日 2022-06-08 16:38:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS パーマリンク