Learning Semantic-Agnostic and Spatial-Aware Representation for Generalizable Visual-Audio Navigation

要約

視覚音声ナビゲーション (VAN) は、家庭用ロボットやレスキュー ロボットなど、その幅広い用途によりロボット コミュニティからますます注目を集めています。
このタスクでは、身体化されたエージェントは、自己中心的な視覚と聴覚の観察によって音源を検索し、そこに移動する必要があります。
しかし、既存の方法には次の 2 つの側面で制限があります。1) 聞いたことのないサウンド カテゴリへの一般化が不十分。
2) トレーニングにおけるサンプルの非効率的。
これら 2 つの問題に焦点を当て、一般化可能な視覚と音声のナビゲーションのための意味論にとらわれない空間認識表現を学習するための、脳にヒントを得たプラグ アンド プレイ手法を提案します。
上記の望ましい特性を持つ学習表現をそれぞれ加速する 2 つの補助タスクを綿密に設計します。
これら 2 つの補助タスクにより、エージェントは、新しいサウンドとマップを備えた環境での作業に適用できる視覚入力と音声入力の空間的に相関した表現を学習します。
リアルな 3D シーン (レプリカと Matterport3D) での実験結果は、目に見えないマップと聞こえないサウンド カテゴリを含むシーンにゼロショットを転送した場合に、私たちの方法がより優れた汎化パフォーマンスを達成することを示しています。

要約(オリジナル)

Visual-audio navigation (VAN) is attracting more and more attention from the robotic community due to its broad applications, \emph{e.g.}, household robots and rescue robots. In this task, an embodied agent must search for and navigate to the sound source with egocentric visual and audio observations. However, the existing methods are limited in two aspects: 1) poor generalization to unheard sound categories; 2) sample inefficient in training. Focusing on these two problems, we propose a brain-inspired plug-and-play method to learn a semantic-agnostic and spatial-aware representation for generalizable visual-audio navigation. We meticulously design two auxiliary tasks for respectively accelerating learning representations with the above-desired characteristics. With these two auxiliary tasks, the agent learns a spatially-correlated representation of visual and audio inputs that can be applied to work on environments with novel sounds and maps. Experiment results on realistic 3D scenes (Replica and Matterport3D) demonstrate that our method achieves better generalization performance when zero-shot transferred to scenes with unseen maps and unheard sound categories.

arxiv情報

著者 Hongcheng Wang,Yuxuan Wang,Fangwei Zhong,Mingdong Wu,Jianwei Zhang,Yizhou Wang,Hao Dong
発行日 2023-06-21 16:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク