要約
身体的命令追従(EIF)は身体的学習において重要なタスクであり、自然言語の指示を実行するためにエージェントが自己中心的な観察を通じて環境と対話する必要があります。
最近の進歩により、EIF を含む身体化された学習タスクのパフォーマンスを向上させるために、フレームワーク中心のアプローチ内で大規模言語モデル (LLM) を採用することが急増しています。
これらの努力にもかかわらず、視覚認識からアクションの実行に至るまでのさまざまなコンポーネントがタスクのパフォーマンスに与える影響については、統一された理解が不足しています。
このギャップに対処するために、私たちは、具体化された学習タスクを解決するために不可欠なコアコンポーネントであるオブザーバー、プランナー、エグゼキューターを描写する包括的なフレームワークである OPEx を導入します。
広範な評価を通じて、各コンポーネントが EIF タスクのパフォーマンスにどのような影響を与えるかを詳細に分析します。
さらに、TextWorld の対応物にマルチエージェント対話戦略を展開することで、この分野で革新を起こし、タスクのパフォーマンスをさらに向上させます。
私たちの調査結果は、LLM 中心の設計が EIF の結果を著しく改善することを明らかにし、視覚認識と低レベルのアクションの実行が重大なボトルネックであることを特定し、マルチエージェント フレームワークで LLM を強化することでパフォーマンスがさらに向上することを示しています。
要約(オリジナル)
Embodied Instruction Following (EIF) is a crucial task in embodied learning, requiring agents to interact with their environment through egocentric observations to fulfill natural language instructions. Recent advancements have seen a surge in employing large language models (LLMs) within a framework-centric approach to enhance performance in embodied learning tasks, including EIF. Despite these efforts, there exists a lack of a unified understanding regarding the impact of various components-ranging from visual perception to action execution-on task performance. To address this gap, we introduce OPEx, a comprehensive framework that delineates the core components essential for solving embodied learning tasks: Observer, Planner, and Executor. Through extensive evaluations, we provide a deep analysis of how each component influences EIF task performance. Furthermore, we innovate within this space by deploying a multi-agent dialogue strategy on a TextWorld counterpart, further enhancing task performance. Our findings reveal that LLM-centric design markedly improves EIF outcomes, identify visual perception and low-level action execution as critical bottlenecks, and demonstrate that augmenting LLMs with a multi-agent framework further elevates performance.
arxiv情報
著者 | Haochen Shi,Zhiyuan Sun,Xingdi Yuan,Marc-Alexandre Côté,Bang Liu |
発行日 | 2024-03-05 14:53:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google