要約
この作業は、大規模言語モデル (LLM) を使用した EIF (Embedded 命令追従) 用のタスク プランナーの構築に焦点を当てています。
以前の研究では、通常、プランナーが専門家の軌道を模倣するように訓練され、これを教師付きタスクとして扱いました。
これらの方法は競争力のあるパフォーマンスを実現しますが、十分な堅牢性が欠けていることがよくあります。
最適ではないアクションが実行されると、プランナは配布外状態に遭遇する可能性があり、タスクの失敗につながる可能性があります。
対照的に、私たちはタスクを部分的に観察可能なマルコフ決定プロセス (POMDP) として構成し、少数ショットの仮定の下で堅牢なプランナーを開発することを目指しています。
したがって、プランナーを支援するためにできるだけ多くの情報を使用することを目的として、適応モジュールと新しい後知恵方法を備えた閉ループプランナーを提案します。
ALFRED データセットでの実験では、プランナーが数ショットの仮定の下で競争力のあるパフォーマンスを達成していることが示されています。
初めて、数ショット エージェントのパフォーマンスが、フルショット監視エージェントのパフォーマンスに近づき、さらにはそれを上回りました。
要約(オリジナル)
This work focuses on building a task planner for Embodied Instruction Following (EIF) using Large Language Models (LLMs). Previous works typically train a planner to imitate expert trajectories, treating this as a supervised task. While these methods achieve competitive performance, they often lack sufficient robustness. When a suboptimal action is taken, the planner may encounter an out-of-distribution state, which can lead to task failure. In contrast, we frame the task as a Partially Observable Markov Decision Process (POMDP) and aim to develop a robust planner under a few-shot assumption. Thus, we propose a closed-loop planner with an adaptation module and a novel hindsight method, aiming to use as much information as possible to assist the planner. Our experiments on the ALFRED dataset indicate that our planner achieves competitive performance under a few-shot assumption. For the first time, our few-shot agent’s performance approaches and even surpasses that of the full-shot supervised agent.
arxiv情報
著者 | Yuxiao Yang,Shenao Zhang,Zhihan Liu,Huaxiu Yao,Zhaoran Wang |
発行日 | 2024-12-27 10:05:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google