Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models

要約

リモート具体化された参照式(Reverie)タスクでは、エージェントが複雑な屋内環境をナビゲートし、事前の探索なしで「Bring Me Spoon」などの高レベルの命令で指定されたリモートオブジェクトをローカライズする必要があります。
したがって、最終的な成功には効率的なナビゲーション計画が不可欠です。
このペーパーでは、大規模な言語モデル(PEAP-LLM)を使用して、各場所で単一ステップの命令を生成する新しいパラメーター効率の高いアクションプランナーを提案します。
提案されたモデルは、LLMゴールプランナー(LGP)とLORAアクションプランナー(LAP)の2つのモジュールで構成されています。
当初、LGPは、ターゲットオブジェクトや部屋を含む空想的な指示から目標指向の計画を抽出します。
次に、LAPは、目標指向の計画、高レベルの指示、および入力としての現在の視覚観測を伴うシングルステップ命令を生成します。
PEAP-LLMにより、具体化されたエージェントがその場でパスプランナーとしてラップと対話することができます。
LLMSの単純な直接アプリケーションは、パフォーマンスを達成することはほとんどありません。
また、既存のハードプロムベースの方法は、複雑なシナリオでエラーが発生しやすく、人間の介入が必要です。
これらの問題に対処し、LLMが幻覚と偏った情報を生成するのを防ぐために、監視された微調整(STF)と直接優先最適化(DPO)で構成されるLLMを微調整するための新しい2段階の方法を提案します。
SFTは生成された命令の品質を向上させ、DPOは環境フィードバックを利用します。
実験結果は、以前の最先端と比較して、Reverieに対する提案されたモデルの優位性を示しています。

要約(オリジナル)

The remote embodied referring expression (REVERIE) task requires an agent to navigate through complex indoor environments and localize a remote object specified by high-level instructions, such as ‘bring me a spoon’, without pre-exploration. Hence, an efficient navigation plan is essential for the final success. This paper proposes a novel parameter-efficient action planner using large language models (PEAP-LLM) to generate a single-step instruction at each location. The proposed model consists of two modules, LLM goal planner (LGP) and LoRA action planner (LAP). Initially, LGP extracts the goal-oriented plan from REVERIE instructions, including the target object and room. Then, LAP generates a single-step instruction with the goal-oriented plan, high-level instruction, and current visual observation as input. PEAP-LLM enables the embodied agent to interact with LAP as the path planner on the fly. A simple direct application of LLMs hardly achieves good performance. Also, existing hard-prompt-based methods are error-prone in complicated scenarios and need human intervention. To address these issues and prevent the LLM from generating hallucinations and biased information, we propose a novel two-stage method for fine-tuning the LLM, consisting of supervised fine-tuning (STF) and direct preference optimization (DPO). SFT improves the quality of generated instructions, while DPO utilizes environmental feedback. Experimental results show the superiority of our proposed model on REVERIE compared to the previous state-of-the-art.

arxiv情報

著者 Bahram Mohammadi,Ehsan Abbasnejad,Yuankai Qi,Qi Wu,Anton Van Den Hengel,Javen Qinfeng Shi
発行日 2025-05-12 12:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク