要約
視聴覚ナビゲーションは、視覚と聴覚を組み合わせて、マッピングされていない環境の音源にナビゲートします。
最近のアプローチでは、目標を検出して見つけるためのオーディオ入力の利点が実証されていますが、それらはクリーンで静的な音源に焦点を当てており、聞いたことのない音に一般化するのに苦労しています.
この作業では、新しいダイナミックな視聴覚ナビゲーション ベンチマークを提案します。このベンチマークでは、騒々しく気を散らす音のある環境で移動する音源をキャッチする必要があり、さまざまな新しい課題が生じます。
これらの複雑な設定に対して堅牢なナビゲーション ポリシーを学習する強化学習アプローチを紹介します。
これを達成するために、空間特徴空間のオーディオビジュアル情報を融合して、ローカルマップとオーディオ信号の両方に固有の幾何学的情報の相関を学習するアーキテクチャを提案します。
私たちのアプローチは、Matterport3D とレプリカという 2 つの困難な 3D スキャンされた現実世界の環境で、動く音、聞いたことのない音、騒々しい環境のすべてのタスクにわたって、一貫して現在の最先端技術を大幅に上回っていることを示しています。
ベンチマークは http://dav-nav.cs.uni-freiburg.de で入手できます。
要約(オリジナル)
Audio-visual navigation combines sight and hearing to navigate to a sound-emitting source in an unmapped environment. While recent approaches have demonstrated the benefits of audio input to detect and find the goal, they focus on clean and static sound sources and struggle to generalize to unheard sounds. In this work, we propose the novel dynamic audio-visual navigation benchmark which requires catching a moving sound source in an environment with noisy and distracting sounds, posing a range of new challenges. We introduce a reinforcement learning approach that learns a robust navigation policy for these complex settings. To achieve this, we propose an architecture that fuses audio-visual information in the spatial feature space to learn correlations of geometric information inherent in both local maps and audio signals. We demonstrate that our approach consistently outperforms the current state-of-the-art by a large margin across all tasks of moving sounds, unheard sounds, and noisy environments, on two challenging 3D scanned real-world environments, namely Matterport3D and Replica. The benchmark is available at http://dav-nav.cs.uni-freiburg.de.
arxiv情報
著者 | Abdelrahman Younes,Daniel Honerkamp,Tim Welschehold,Abhinav Valada |
発行日 | 2022-08-26 14:13:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google