MemoNav: Working Memory Model for Visual Navigation

要約

画像目標ナビゲーションは、エージェントが不慣れな環境で画像によって示される目標に移動する必要がある難しいタスクです。
多様なシーン記憶を利用する既存の方法は、目標に関連する部分を考慮せずに意思決定にすべての履歴観察を使用するため、非効率な探索に悩まされています。
この制限に対処するために、画像ゴール ナビゲーション用の新しいメモリ モデルである MemoNav を紹介します。これは、作業メモリからインスピレーションを得たパイプラインを利用してナビゲーションのパフォーマンスを向上させます。
具体的には3種類のナビゲーションメモリーを採用。
マップ上のノード フィーチャは動的に更新されるため、短期メモリ (STM) に保存されます。
その後、忘却モジュールが有益な STM 部分を保持して効率を高めます。
また、長期記憶 (LTM) を導入し、STM 特徴を段階的に集約することでグローバル シーン表現を学習します。
その後、グラフ アテンション モジュールが保持された STM と LTM をエンコードして、効率的なナビゲーションに不可欠なシーンの特徴を含む作業メモリ (WM) を生成します。
これら 3 つのメモリ タイプの相乗効果により、エージェントがトポロジ マップ内の目標に関連するシーンの特徴を学習して活用できるようになり、ナビゲーション パフォーマンスが向上します。
複数の目標を持つタスクに関する評価では、Gibson シーンと Matterport3D シーンの両方で、すべての難易度にわたって MemoNav が以前の方法よりも大幅に優れていることが実証されました。
定性的な結果は、MemoNav がより効率的なルートを計画することをさらに示しています。

要約(オリジナル)

Image-goal navigation is a challenging task that requires an agent to navigate to a goal indicated by an image in unfamiliar environments. Existing methods utilizing diverse scene memories suffer from inefficient exploration since they use all historical observations for decision-making without considering the goal-relevant fraction. To address this limitation, we present MemoNav, a novel memory model for image-goal navigation, which utilizes a working memory-inspired pipeline to improve navigation performance. Specifically, we employ three types of navigation memory. The node features on a map are stored in the short-term memory (STM), as these features are dynamically updated. A forgetting module then retains the informative STM fraction to increase efficiency. We also introduce long-term memory (LTM) to learn global scene representations by progressively aggregating STM features. Subsequently, a graph attention module encodes the retained STM and the LTM to generate working memory (WM) which contains the scene features essential for efficient navigation. The synergy among these three memory types boosts navigation performance by enabling the agent to learn and leverage goal-relevant scene features within a topological map. Our evaluation on multi-goal tasks demonstrates that MemoNav significantly outperforms previous methods across all difficulty levels in both Gibson and Matterport3D scenes. Qualitative results further illustrate that MemoNav plans more efficient routes.

arxiv情報

著者 Hongxin Li,Zeyu Wang,Xu Yang,Yuran Yang,Shuqi Mei,Zhaoxiang Zhang
発行日 2024-02-29 13:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク