Advancing Object Goal Navigation Through LLM-enhanced Object Affinities Transfer

要約

オブジェクト目標ナビゲーションでは、エージェントは視覚情報と空間情報を使用して、カテゴリ ラベルによって識別されるオブジェクトに向かって移動します。
これまでは、ネットワークベースの方法のみがオブジェクトの親和性の推定に履歴データに依存するのが一般的であり、新しい環境や目に見えないターゲットへの適応性に欠けていました。
同時に、プランナーまたはエージェントとしてナビゲーションに大規模言語モデル (LLM) を使用すると、広範な知識ベースは提供されますが、コスト効率が悪く、対象を絞った歴史的経験が不足します。
これらの課題に対処するために、LLM で強化されたオブジェクト アフィニティ転送 (LOAT) フレームワークを提案します。これは、LLM 由来のオブジェクト セマンティクスをネットワーク ベースのアプローチと統合して、経験的なオブジェクト アフィニティを活用し、不慣れな設定での適応性を向上させます。
LOAT はデュアルモジュール戦略を採用しています。LLM の膨大な知識にアクセスするための一般化されたアフィニティ モジュールと、学習されたオブジェクトの意味関係を適用するための経験的なアフィニティ モジュールであり、時間的コンテキストに基づいてこれらの情報ソースを調和させる動的融合モジュールによって補完されます。
結果として得られるスコアは、下流のポリシーに入力される前にセマンティック マップをアクティブ化し、コンテキストを認識した入力でナビゲーション システムを強化します。
AI2-THOR および Habitat シミュレーターでの評価では、ナビゲーションの成功率と効率の両方が向上していることが実証され、LLM の洞察を統合してオブジェクトの目標ナビゲーションを改善する際の LOAT の有効性が検証されています。

要約(オリジナル)

In object goal navigation, agents navigate towards objects identified by category labels using visual and spatial information. Previously, solely network-based methods typically rely on historical data for object affinities estimation, lacking adaptability to new environments and unseen targets. Simultaneously, employing Large Language Models (LLMs) for navigation as either planners or agents, though offering a broad knowledge base, is cost-inefficient and lacks targeted historical experience. Addressing these challenges, we present the LLM-enhanced Object Affinities Transfer (LOAT) framework, integrating LLM-derived object semantics with network-based approaches to leverage experiential object affinities, thus improving adaptability in unfamiliar settings. LOAT employs a dual-module strategy: a generalized affinities module for accessing LLMs’ vast knowledge and an experiential affinities module for applying learned object semantic relationships, complemented by a dynamic fusion module harmonizing these information sources based on temporal context. The resulting scores activate semantic maps before feeding into downstream policies, enhancing navigation systems with context-aware inputs. Our evaluations in AI2-THOR and Habitat simulators demonstrate improvements in both navigation success rates and efficiency, validating the LOAT’s efficacy in integrating LLM insights for improved object goal navigation.

arxiv情報

著者 Mengying Lin,Yaran Chen,Dongbin Zhao,Zhaoran Wang
発行日 2024-03-15 02:28:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク