OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models

要約

オブジェクト ナビゲーション (ObjectNav) では、エージェントが目に見えない環境をナビゲートして、クエリされたオブジェクトを見つける必要があります。
これまでの手法の多くは、教師あり学習または強化学習に依存してこのタスクを解決しようとしました。つまり、近似セットのオブジェクトを含む限られた世帯データセットでトレーニングされます。
ただし、2 つの重要な課題は未解決です。それは、オープンセット オブジェクトを必要とする自由形式の自然言語命令を理解すること、もう 1 つはゼロショット方式で新しい環境に一般化することです。
この 2 つの課題を解決することを目的として、この論文では、ゼロショット オブジェクト ナビゲーションのためのオープンセット基盤モデル ベースのフレームワークである OpenFMNav を提案します。
まず、大規模言語モデル (LLM) の推論能力を活用して、ユーザーの要求を満たす自然言語命令から提案されたオブジェクトを抽出します。
次に、ラージ ビジョン言語モデル (VLM) の一般化可能性を活用して、シーンから候補オブジェクトを積極的に発見して検出し、Versatile Semantic Sc​​ore Map (VSSM) を構築します。
次に、VSSM 上で常識的な推論を実行することにより、私たちの方法は効果的な言語ガイドによる探索とシーンの活用を実行し、最終的に目標に到達します。
基礎モデルの推論と一般化能力を活用することで、私たちの方法は自由形式の人間の指示を理解し、多様な環境で効果的なオープンセットのゼロショット ナビゲーションを実行できます。
HM3D ObjectNav ベンチマークに関する広範な実験により、私たちの方法がすべてのメトリクスですべての強力なベースラインを上回っていることが示され、私たちの方法の有効性が証明されています。
さらに、実際のロボットのデモンストレーションを実行して、私たちの方法のオープンセット性と現実世界の環境への一般化可能性を検証します。

要約(オリジナル)

Object navigation (ObjectNav) requires an agent to navigate through unseen environments to find queried objects. Many previous methods attempted to solve this task by relying on supervised or reinforcement learning, where they are trained on limited household datasets with close-set objects. However, two key challenges are unsolved: understanding free-form natural language instructions that demand open-set objects, and generalizing to new environments in a zero-shot manner. Aiming to solve the two challenges, in this paper, we propose OpenFMNav, an Open-set Foundation Model based framework for zero-shot object Navigation. We first unleash the reasoning abilities of large language models (LLMs) to extract proposed objects from natural language instructions that meet the user’s demand. We then leverage the generalizability of large vision language models (VLMs) to actively discover and detect candidate objects from the scene, building a Versatile Semantic Score Map (VSSM). Then, by conducting common sense reasoning on VSSM, our method can perform effective language-guided exploration and exploitation of the scene and finally reach the goal. By leveraging the reasoning and generalizing abilities of foundation models, our method can understand free-form human instructions and perform effective open-set zero-shot navigation in diverse environments. Extensive experiments on the HM3D ObjectNav benchmark show that our method surpasses all the strong baselines on all metrics, proving our method’s effectiveness. Furthermore, we perform real robot demonstrations to validate our method’s open-set-ness and generalizability to real-world environments.

arxiv情報

著者 Yuxuan Kuang,Hai Lin,Meng Jiang
発行日 2024-02-16 13:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO パーマリンク