VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

要約

家庭用ロボットの分野では、ゼロショット オブジェクト ナビゲーション (ZSON) タスクにより、エージェントは事前の明示的なトレーニングなしで、なじみのない環境を巧みに移動し、新しいカテゴリからオブジェクトを見つけることができます。
この論文では、リアルタイムで構築されたセマンティック マップから探索パスと計画ノードを抽出する縮小ボロノイ グラフを提案する新しいセマンティック探索フレームワークである VoroNav を紹介します。
VoroNav は、トポロジー情報とセマンティック情報を利用して、大規模言語モデル (LLM) で容易に解釈できるパスと画像のテキストベースの記述を設計します。
特に、私たちのアプローチは、環境コンテキストを表す経路と遠方の記述の相乗効果を提示し、LLM がナビゲーションのウェイポイントを確認するために常識的な推論を適用できるようにします。
HM3D と HSSD の広範な評価により、VoroNav が成功率と探索効率の両方で既存のベンチマークを上回っていることが検証されました (絶対的な改善: HM3D では成功 +2.8% と SPL +3.7%、HSSD では成功 +2.6% と SPL +3.8%)。
さらに、障害物回避能力と知覚効率を評価する指標を導入することで、ZSON 計画の手法によって達成される機能強化がさらに裏付けられます。
プロジェクトページ:https://voro-nav.github.io

要約(オリジナル)

In the realm of household robotics, the Zero-Shot Object Navigation (ZSON) task empowers agents to adeptly traverse unfamiliar environments and locate objects from novel categories without prior explicit training. This paper introduces VoroNav, a novel semantic exploration framework that proposes the Reduced Voronoi Graph to extract exploratory paths and planning nodes from a semantic map constructed in real time. By harnessing topological and semantic information, VoroNav designs text-based descriptions of paths and images that are readily interpretable by a large language model (LLM). In particular, our approach presents a synergy of path and farsight descriptions to represent the environmental context, enabling LLM to apply commonsense reasoning to ascertain waypoints for navigation. Extensive evaluation on HM3D and HSSD validates VoroNav surpasses existing benchmarks in both success rate and exploration efficiency (absolute improvement: +2.8% Success and +3.7% SPL on HM3D, +2.6% Success and +3.8% SPL on HSSD). Additionally introduced metrics that evaluate obstacle avoidance proficiency and perceptual efficiency further corroborate the enhancements achieved by our method in ZSON planning. Project page: https://voro-nav.github.io

arxiv情報

著者 Pengying Wu,Yao Mu,Bingxian Wu,Yi Hou,Ji Ma,Shanghang Zhang,Chang Liu
発行日 2024-02-06 05:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク