Asking Before Acting: Gather Information in Embodied Decision Making with Language Models

要約

大規模言語モデル (LLM) は、強力な推論能力と世界の広範な理解を備えており、幅広いタスクを実行できる多用途の具体化された意思決定エージェントを構築する上で計り知れない可能性を示しています。
それにも関わらず、慣れない環境に展開すると、LLM エージェントが重要な情報を効率的に収集する際に課題に直面し、最適なパフォーマンスが得られないことがわかりました。
逆に、人間は行動を起こす前に仲間から追加情報を求めることが多く、不必要な試行錯誤を避けるために外部の知識を利用します。
この行動からインスピレーションを得て、私たちは \textit{行動前に尋ねる} (ABA) を提案します。これは、エージェントが環境内での対話中に自然言語を使用して外部ソースに関連情報を積極的に問い合わせることを可能にする方法です。
このようにして、エージェントは、潜在的に面倒な手順を回避し、不慣れな環境での探索に伴う困難や指示の曖昧さに対処することで、効率とパフォーマンスを向上させることができます。
私たちは、テキストベースの家庭の日常タスク、ロボットアーム操作タスク、現実世界のオープンドメイン画像ベースの身体化タスクなど、さまざまな環境を含む広範な実験を行っています。
実験にはビクーニャから GPT-4 までのさまざまなモデルが含まれます。
この結果は、プロンプトに適度な変更を加えたとしても、ABA がベースラインの LLM エージェントよりもパフォーマンスと効率の両方で大きな利点を示すことを示しています。
再定式化されたメタデータ (ABA-FT) を使用して ABA をさらに微調整すると、質問の理論的根拠の学習が容易になり、特にベースラインでは解決が難しいタスクでの追加の機能強化が可能になります。

要約(オリジナル)

With strong capabilities of reasoning and a broad understanding of the world, Large Language Models (LLMs) have demonstrated immense potential in building versatile embodied decision-making agents capable of executing a wide array of tasks. Nevertheless, when deployed in unfamiliar environments, we show that LLM agents encounter challenges in efficiently gathering essential information, leading to suboptimal performance. Conversely, human individuals often seek additional information from their peers prior to taking action, harnessing external knowledge to avoid unnecessary trial and error. Drawing inspiration from this behavior, we propose \textit{Asking Before Acting} (ABA), a method that empowers the agent to proactively inquire with external sources for pertinent information using natural language during their interactions within the environment. In this way, the agent is able to enhance its efficiency and performance by circumventing potentially laborious steps and combating the difficulties associated with exploration in unfamiliar environments and vagueness of the instructions. We conduct extensive experiments involving a spectrum of environments including text-based household everyday tasks, robot arm manipulation tasks, and real world open domain image based embodied tasks. The experiments involve various models from Vicuna to GPT-4. The results demonstrate that, even with modest prompts modifications, ABA exhibits substantial advantages on both performance and efficiency over baseline LLM agents. Further finetuning ABA with reformulated metadata (ABA-FT) faciliates learning the rationale for asking and allows for additional enhancements especially in tasks that baselines struggle to solve.

arxiv情報

著者 Xiaoyu Chen,Shenao Zhang,Pushi Zhang,Li Zhao,Jianyu Chen
発行日 2024-04-16 13:24:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク