ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling

要約

環境音響モデルは、特定の音源/受信機の場所において、音が屋内環境の物理的特性によってどのように変換されるかを表します。
音響モデルを構築する従来の方法では、空間内の密集した空間位置での大量の音響データの高価で時間のかかる収集が必要になるか、シーンのジオメトリに関する特権的な知識に依存して音響データのサンプリング位置をインテリジェントに選択します。
我々は、マッピングされていない環境の環境音響モデルを効率的に構築するための新しいタスクであるアクティブ音響サンプリングを提案します。このタスクでは、視覚センサーと音響センサーを備えたモバイルエージェントが共同で環境音響モデルと占有マップをオンザフライで構築します。
ActiveRIR は、視聴覚センサー ストリームからの情報を活用してエージェントのナビゲーションをガイドし、最適な音響データ サンプリング位置を決定する強化学習 (RL) ポリシーであり、最小限の音響サンプル セットから環境の高品質な音響モデルを生成します。
環境音響モデルでの情報獲得に基づいた新しい RL 報酬を使用してポリシーをトレーニングします。
最先端の音響シミュレーション プラットフォームから目に見えない多様な屋内環境を評価する ActiveRIR は、空間の新規性と視覚的探索に基づく従来のナビゲーション エージェントと既存の最先端の手法の両方を含む、一連の手法を上回るパフォーマンスを発揮します。

要約(オリジナル)

An environment acoustic model represents how sound is transformed by the physical characteristics of an indoor environment, for any given source/receiver location. Traditional methods for constructing acoustic models involve expensive and time-consuming collection of large quantities of acoustic data at dense spatial locations in the space, or rely on privileged knowledge of scene geometry to intelligently select acoustic data sampling locations. We propose active acoustic sampling, a new task for efficiently building an environment acoustic model of an unmapped environment in which a mobile agent equipped with visual and acoustic sensors jointly constructs the environment acoustic model and the occupancy map on-the-fly. We introduce ActiveRIR, a reinforcement learning (RL) policy that leverages information from audio-visual sensor streams to guide agent navigation and determine optimal acoustic data sampling positions, yielding a high quality acoustic model of the environment from a minimal set of acoustic samples. We train our policy with a novel RL reward based on information gain in the environment acoustic model. Evaluating on diverse unseen indoor environments from a state-of-the-art acoustic simulation platform, ActiveRIR outperforms an array of methods–both traditional navigation agents based on spatial novelty and visual exploration as well as existing state-of-the-art methods.

arxiv情報

著者 Arjun Somayazulu,Sagnik Majumder,Changan Chen,Kristen Grauman
発行日 2024-04-24 21:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, cs.SD, eess.AS パーマリンク