要約
身体的ナビゲーションでは、ロボットが与えられたタスクに基づいて環境を理解し、対話する必要があります。
ビジョン言語ナビゲーション (VLN) は、ロボットが言語指示と視覚入力に基づいて、以前に見た環境とまだ見たことのない環境内をナビゲートする、身体化されたナビゲーション タスクです。
VLN エージェントはローカルとグローバルの両方のアクション スペースにアクセスする必要があります。
前者は即座の意思決定に使用され、後者はナビゲーションの間違いから回復するために使用されます。
従来の VLN エージェントは、ローカルおよびグローバルな意思決定については命令と視点の調整のみに依存し、命令とその現在の視点が一致しない場合は、以前に訪問した視点に戻ります。
これらの方法では、指示が複雑で環境が部分的に観察できるため、間違いが発生しやすくなります。
私たちは、バックトラッキングは最適ではなく、間違いを認識しているエージェントは効率的に回復できると仮定します。
最適な回復のためには、未踏の視点 (またはフロンティア) まで探索を拡張する必要があります。
最適なフロンティアは、最近観察されたものの未開拓の視点であり、指示と一致しており、新規です。
\textit{StratXplore} と呼ばれる、VLN エージェント向けのメモリベースの間違い認識パス計画戦略を導入します。これは、パス修正に最適なフロンティアを選択するためのグローバルおよびローカルのアクション計画を提示します。
提案手法は、ナビゲーション中に過去のすべての行動と視点の特徴を収集し、回復に適した最適なフロンティアを選択します。
実験結果は、このシンプルかつ効果的な戦略により、タスクの複雑さが異なる 2 つの VLN データセットの成功率が向上することを示しています。
要約(オリジナル)
Embodied navigation requires robots to understand and interact with the environment based on given tasks. Vision-Language Navigation (VLN) is an embodied navigation task, where a robot navigates within a previously seen and unseen environment, based on linguistic instruction and visual inputs. VLN agents need access to both local and global action spaces; former for immediate decision making and the latter for recovering from navigational mistakes. Prior VLN agents rely only on instruction-viewpoint alignment for local and global decision making and back-track to a previously visited viewpoint, if the instruction and its current viewpoint mismatches. These methods are prone to mistakes, due to the complexity of the instruction and partial observability of the environment. We posit that, back-tracking is sub-optimal and agent that is aware of its mistakes can recover efficiently. For optimal recovery, exploration should be extended to unexplored viewpoints (or frontiers). The optimal frontier is a recently observed but unexplored viewpoint that aligns with the instruction and is novel. We introduce a memory-based and mistake-aware path planning strategy for VLN agents, called \textit{StratXplore}, that presents global and local action planning to select the optimal frontier for path correction. The proposed method collects all past actions and viewpoint features during navigation and then selects the optimal frontier suitable for recovery. Experimental results show this simple yet effective strategy improves the success rate on two VLN datasets with different task complexities.
arxiv情報
著者 | Muraleekrishna Gopinathan,Jumana Abu-Khalaf,David Suter,Martin Masek |
発行日 | 2024-09-09 13:23:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google