Disentangled Acoustic Fields For Multimodal Physical Scene Understanding

要約

私たちは、身体化されたエージェントが物体の特性、方向、衝撃音源の距離を推測することによって落下物を見つける必要がある、マルチモーダルな物理シーンの理解の問題を研究します。
以前の研究では、サウンドから変数を直接回帰するためにフィードフォワード ニューラル ネットワークを採用しており、一般化が不十分で領域適応の問題が発生していました。
この論文では、音の生成と伝播プロセスを捕捉するために、解絡音響場 (DAF) と呼ばれる音響形成の解絡モデルを学習することで、身体化されたエージェントが物体が存在する可能性がある場所の空間不確実性マップを構築できることを説明します。
落ちた。
我々の合成による分析フレームワークが、もつれを解いたモデルの潜在空間を明示的に分解して因数分解することにより、健全な特性を共同で推論できることを実証します。
さらに、空間不確実性マップが複数の妥当な探査場所を提案することにより、落下物の位置特定の成功率を大幅に向上できることを示します。

要約(オリジナル)

We study the problem of multimodal physical scene understanding, where an embodied agent needs to find fallen objects by inferring object properties, direction, and distance of an impact sound source. Previous works adopt feed-forward neural networks to directly regress the variables from sound, leading to poor generalization and domain adaptation issues. In this paper, we illustrate that learning a disentangled model of acoustic formation, referred to as disentangled acoustic field (DAF), to capture the sound generation and propagation process, enables the embodied agent to construct a spatial uncertainty map over where the objects may have fallen. We demonstrate that our analysis-by-synthesis framework can jointly infer sound properties by explicitly decomposing and factorizing the latent space of the disentangled model. We further show that the spatial uncertainty map can significantly improve the success rate for the localization of fallen objects by proposing multiple plausible exploration locations.

arxiv情報

著者 Jie Yin,Andrew Luo,Yilun Du,Anoop Cherian,Tim K. Marks,Jonathan Le Roux,Chuang Gan
発行日 2024-07-16 02:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SD, eess.AS パーマリンク