UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

要約

この論文では、ユニバーサルゼロショットの目標指向ナビゲーションの一般的なフレームワークを提案します。
既存のゼロショットメソッドは、特定のタスクの大きな言語モデル(LLM)に推論フレームワークを構築します。これは、全体的なパイプラインで大きく異なり、さまざまなタイプの目標にわたって一般化できません。
ユニバーサルゼロショットナビゲーションの目的に向けて、オブジェクトカテゴリ、インスタンス画像、テキストの説明など、さまざまな目標を統合するための均一なグラフ表現を提案します。
また、エージェントの観測をオンラインで維持されたシーングラフに変換します。
この一貫したシーンと目標表現により、純粋なテキストと比較してほとんどの構造情報を保存し、明示的なグラフベースの推論のためにLLMを活用することができます。
具体的には、シーングラフとゴールグラフの間で各時間瞬間にマッチングを行い、異なる戦略を提案して、さまざまな一致状態に従って探査の長期目標を生成します。
エージェントは、最初にゼロマッチングが行われたときにゴールのサブグラフを繰り返し検索します。
部分的なマッチングで、エージェントは座標投影とアンカーペアのアライメントを使用して、目標の位置を推測します。
最後に、シーングラフの修正と目標検証が​​完全にマッチするように適用されます。
また、ステージ間の堅牢なスイッチを有効にするためのブラックリストメカニズムも提示します。
いくつかのベンチマークでの広範な実験は、私たちのユニゴールが、単一のモデル、さらにはタスク固有のゼロショットメソッドを上回るだけでなく、監視されたユニバーサル方法を上回る3つの研究されたナビゲーションタスクで最先端のゼロショットパフォーマンスを達成することを示しています。

要約(オリジナル)

In this paper, we propose a general framework for universal zero-shot goal-oriented navigation. Existing zero-shot methods build inference framework upon large language models (LLM) for specific tasks, which differs a lot in overall pipeline and fails to generalize across different types of goal. Towards the aim of universal zero-shot navigation, we propose a uniform graph representation to unify different goals, including object category, instance image and text description. We also convert the observation of agent into an online maintained scene graph. With this consistent scene and goal representation, we preserve most structural information compared with pure text and are able to leverage LLM for explicit graph-based reasoning. Specifically, we conduct graph matching between the scene graph and goal graph at each time instant and propose different strategies to generate long-term goal of exploration according to different matching states. The agent first iteratively searches subgraph of goal when zero-matched. With partial matching, the agent then utilizes coordinate projection and anchor pair alignment to infer the goal location. Finally scene graph correction and goal verification are applied for perfect matching. We also present a blacklist mechanism to enable robust switch between stages. Extensive experiments on several benchmarks show that our UniGoal achieves state-of-the-art zero-shot performance on three studied navigation tasks with a single model, even outperforming task-specific zero-shot methods and supervised universal methods.

arxiv情報

著者 Hang Yin,Xiuwei Xu,Lingqing Zhao,Ziwei Wang,Jie Zhou,Jiwen Lu
発行日 2025-03-13 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク