SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation

要約

この論文では、ゼロショット オブジェクト ナビゲーションのための新しいフレームワークを提案します。
既存のゼロショット オブジェクト ナビゲーション メソッドでは、LLM に空間的に閉じたオブジェクトのテキストを要求しますが、これには詳細な推論を行うのに十分なシーン コンテキストが不足しています。
環境の情報をより適切に保存し、LLM の推論能力を最大限に活用するために、観察されたシーンを 3D シーン グラフで表現することを提案します。
シーン グラフは、LLM に適した構造でオブジェクト、グループ、部屋の間の関係をエンコードします。これに対して、LLM がノードとエッジをトラバースすることでシーン コンテキストに従ってゴールの場所を推論できるようにするための階層的思考連鎖プロンプトを設計します。
さらに、シーン グラフ表現の利点を活用して、オブジェクト ナビゲーション フレームワークに認識エラーを修正する機能を与える再認識メカニズムをさらに設計します。
当社では MP3D、HM3D、RoboTHOR 環境で広範な実験を行っており、SG-Nav は以前の最先端のゼロショット手法をすべてのベンチマークで 10% 以上 SR 上回り、意思決定プロセスは説明可能です。
私たちの知る限り、SG-Nav は、困難な MP3D ベンチマークにおいて教師ありオブジェクト ナビゲーション方法よりもさらに高いパフォーマンスを達成する最初のゼロショット方法です。

要約(オリジナル)

In this paper, we propose a new framework for zero-shot object navigation. Existing zero-shot object navigation methods prompt LLM with the text of spatially closed objects, which lacks enough scene context for in-depth reasoning. To better preserve the information of environment and fully exploit the reasoning ability of LLM, we propose to represent the observed scene with 3D scene graph. The scene graph encodes the relationships between objects, groups and rooms with a LLM-friendly structure, for which we design a hierarchical chain-of-thought prompt to help LLM reason the goal location according to scene context by traversing the nodes and edges. Moreover, benefit from the scene graph representation, we further design a re-perception mechanism to empower the object navigation framework with the ability to correct perception error. We conduct extensive experiments on MP3D, HM3D and RoboTHOR environments, where SG-Nav surpasses previous state-of-the-art zero-shot methods by more than 10% SR on all benchmarks, while the decision process is explainable. To the best of our knowledge, SG-Nav is the first zero-shot method that achieves even higher performance than supervised object navigation methods on the challenging MP3D benchmark.

arxiv情報

著者 Hang Yin,Xiuwei Xu,Zhenyu Wu,Jie Zhou,Jiwen Lu
発行日 2024-10-10 17:57:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク