Advancing Object Goal Navigation Through LLM-enhanced Object Affinities Transfer

要約

オブジェクト目標ナビゲーションでは、エージェントは視覚情報と空間情報を使用して、カテゴリ ラベルによって識別されるオブジェクトに向かって移動します。
これまでは、ネットワークベースの方法のみがオブジェクトの親和性を推定するために履歴データに依存するのが一般的であり、新しい環境や目に見えないターゲットへの適応性に欠けていました。
同時に、プランナーまたはエージェントとしてナビゲーションに大規模言語モデル (LLM) を使用すると、広範な知識ベースは提供されますが、コスト効率が悪く、対象を絞った歴史的経験が不足します。
これらの課題に対処するために、LLM で強化されたオブジェクト アフィニティ転送 (LOAT) フレームワークを提案します。LLM 由来のオブジェクト セマンティクスとネットワーク ベースのアプローチを統合して、経験的なオブジェクト アフィニティを活用し、不慣れな設定での適応性を向上させます。
LOAT はデュアルモジュール戦略を採用しています。LLM の膨大な知識にアクセスするための一般化されたアフィニティ モジュールと、学習されたオブジェクトの意味関係を適用するための経験的なアフィニティ モジュールであり、時間的コンテキストに基づいてこれらの情報ソースを調和させる動的融合モジュールによって補完されます。
結果として得られるスコアは、下流のポリシーに入力される前にセマンティック マップをアクティブ化し、コンテキストを認識した入力でナビゲーション システムを強化します。
AI2-THOR および Habitat シミュレーターで実施された評価では、ナビゲーションの成功率と全体的な効率の両方が大幅に向上していることがわかりました。
さらに、このシステムは実際のロボットに展開すると、追加のトレーニングを必要とせずに効果的に動作するため、LLM の洞察を統合してオブジェクトと目標のナビゲーションを強化する際の LOAT の有効性が検証されます。

要約(オリジナル)

In object goal navigation, agents navigate towards objects identified by category labels using visual and spatial information. Previously, solely network-based methods typically rely on historical data for object affinities estimation, lacking adaptability to new environments and unseen targets. Simultaneously, employing Large Language Models (LLMs) for navigation as either planners or agents, though offering a broad knowledge base, is cost-inefficient and lacks targeted historical experience. Addressing these challenges, we present the LLM-enhanced Object Affinities Transfer (LOAT) framework, integrating LLM-derived object semantics with network-based approaches to leverage experiential object affinities, thus improving adaptability in unfamiliar settings. LOAT employs a dual-module strategy: a generalized affinities module for accessing LLMs’ vast knowledge and an experiential affinities module for applying learned object semantic relationships, complemented by a dynamic fusion module harmonizing these information sources based on temporal context. The resulting scores activate semantic maps before feeding into downstream policies, enhancing navigation systems with context-aware inputs. Our evaluations conducted in the AI2-THOR and Habitat simulators indicate significant improvements in both navigation success rates and overall efficiency. Furthermore, the system performs effectively when deployed on a real robot without requiring additional training, thereby validating the efficacy of LOAT in integrating LLM insights for enhanced object-goal navigation.

arxiv情報

著者 Mengying Lin,Shugao Liu,Dingxi Zhang,Yaran Chen,Haoran Liu,Dongbin Zhao
発行日 2024-11-11 16:20:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク