CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation

要約

複雑な現実世界の環境をナビゲートしながら自然言語の指示を理解して従うことは、汎用ロボットにとって大きな課題となります。
これらの環境には障害物や歩行者が含まれることが多く、自律エージェントは周囲からのフィードバックに基づいて行動を調整する自己修正計画の能力を備えていることが不可欠です。
しかし、既存の視覚と言語によるナビゲーション (VLN) 手法の大部分は、主に非現実的なシミュレータ設定で動作し、意思決定プロセスに環境フィードバックを組み込んでいません。
このギャップに対処するために、CorNav と呼ばれる新しいゼロショット フレームワークを導入します。これは、意思決定に大規模な言語モデルを利用し、次の 2 つの重要なコンポーネントで構成されます。1) 将来の計画を洗練し、その行動を調整するための環境フィードバックの組み込み、2) 複数のドメイン
指示を解析し、シーンを理解し、予測されたアクションを調整するための専門家。
フレームワークに加えて、Unreal Engine 5 を使用して現実的なシナリオをレンダリングする 3D シミュレーターを開発します。ゼロショット マルチタスク設定でのナビゲーション エージェントの有効性と汎用性を評価するために、NavBench と呼ばれるベンチマークを作成します。
広範な実験により、CorNav はすべてのタスクにわたって一貫してすべてのベースラインを大幅に上回っていることが実証されています。
CorNav は平均して 28.1\% の成功率を達成し、最高のベースラインのパフォーマンス 20.5\% を上回っています。

要約(オリジナル)

Understanding and following natural language instructions while navigating through complex, real-world environments poses a significant challenge for general-purpose robots. These environments often include obstacles and pedestrians, making it essential for autonomous agents to possess the capability of self-corrected planning to adjust their actions based on feedback from the surroundings. However, the majority of existing vision-and-language navigation (VLN) methods primarily operate in less realistic simulator settings and do not incorporate environmental feedback into their decision-making processes. To address this gap, we introduce a novel zero-shot framework called CorNav, utilizing a large language model for decision-making and comprising two key components: 1) incorporating environmental feedback for refining future plans and adjusting its actions, and 2) multiple domain experts for parsing instructions, scene understanding, and refining predicted actions. In addition to the framework, we develop a 3D simulator that renders realistic scenarios using Unreal Engine 5. To evaluate the effectiveness and generalization of navigation agents in a zero-shot multi-task setting, we create a benchmark called NavBench. Extensive experiments demonstrate that CorNav consistently outperforms all baselines by a significant margin across all tasks. On average, CorNav achieves a success rate of 28.1\%, surpassing the best baseline’s performance of 20.5\%.

arxiv情報

著者 Xiwen Liang,Liang Ma,Shanshan Guo,Jianhua Han,Hang Xu,Shikui Ma,Xiaodan Liang
発行日 2024-03-14 14:33:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク