要約
大規模言語モデル(Large Language Models:LLM)ベースのエージェントは、ロボット工学、ゲーム、ウェブナビゲーションなど、様々な領域で自律的にタスクを完了することが期待されている。しかし、これらのエージェントは、一般的に、特定のドメインにおけるタスクを解決するために、精巧な設計と専門家のプロンプトを必要とし、その適応性を制限している。我々は、LLMエージェントが対話を通じて自律的に理解を深め、新しい環境に適応することを可能にするフレームワーク、AutoManualを紹介する。AutoManualは環境知識を多様なルールに分類し、2つのエージェントによってオンライン方式で最適化する:1) プランナーは、環境と相互作用するための現在のルールに基づいて、行動可能な計画を作成する。2)ビルダーは、ルールのオンライン管理と本質的な詳細の保持を容易にする、構造化されたルールシステムを通じてルールを更新する。ルール管理における幻覚を軽減するために、我々はビルダーに対して*ケース条件付きプロンプト*戦略を導入する。最後に、Formulatorエージェントがこれらのルールを包括的なマニュアルにまとめる。自己生成されたマニュアルは、適応性を向上させるだけでなく、人間が読めるようにしながら、より小さなLLMの計画を導くことができる。たった一つの簡単なデモで、AutoManualは、ALFWorldベンチマーク・タスクで、GPT-4-turboで97.4%、GPT-3.5-turboで86.2%の成功率を達成し、タスク成功率を大幅に改善した。コードはhttps://github.com/minghchen/automanual。
要約(オリジナル)
Large Language Models (LLM) based agents have shown promise in autonomously completing tasks across various domains, e.g., robotics, games, and web navigation. However, these agents typically require elaborate design and expert prompts to solve tasks in specific domains, which limits their adaptability. We introduce AutoManual, a framework enabling LLM agents to autonomously build their understanding through interaction and adapt to new environments. AutoManual categorizes environmental knowledge into diverse rules and optimizes them in an online fashion by two agents: 1) The Planner codes actionable plans based on current rules for interacting with the environment. 2) The Builder updates the rules through a well-structured rule system that facilitates online rule management and essential detail retention. To mitigate hallucinations in managing rules, we introduce a *case-conditioned prompting* strategy for the Builder. Finally, the Formulator agent compiles these rules into a comprehensive manual. The self-generated manual can not only improve the adaptability but also guide the planning of smaller LLMs while being human-readable. Given only one simple demonstration, AutoManual significantly improves task success rates, achieving 97.4\% with GPT-4-turbo and 86.2\% with GPT-3.5-turbo on ALFWorld benchmark tasks. The code is available at https://github.com/minghchen/automanual.
arxiv情報
著者 | Minghao Chen,Yihang Li,Yanting Yang,Shiyu Yu,Binbin Lin,Xiaofei He |
発行日 | 2024-11-01 06:13:12+00:00 |
arxivサイト | arxiv_id(pdf) |