要約
大規模言語モデル (LLM) ベースのエージェントは、ロボット工学、ゲーム、Web ナビゲーションなど、さまざまなドメインにわたるタスクを自律的に完了することが期待されています。
ただし、これらのエージェントは通常、特定のドメインのタスクを解決するために精巧な設計と専門家のプロンプトを必要とするため、適応性が制限されます。
LLM エージェントが対話を通じて自律的に理解を深め、新しい環境に適応できるようにするフレームワークである AutoManual を紹介します。
AutoManual は、環境知識をさまざまなルールに分類し、2 つのエージェントによってオンライン形式で最適化します。 1) プランナーは、環境と対話するための現在のルールに基づいて実行可能な計画を作成します。
2) ビルダーは、オンライン ルール管理と重要な詳細の保持を容易にする、適切に構造化されたルール システムを通じてルールを更新します。
ルール管理における幻覚を軽減するために、ビルダーにケース条件付きプロンプト戦略を導入します。
最後に、Formulator エージェントはこれらのルールを包括的なマニュアルにまとめます。
自己生成マニュアルは、適応性を向上させるだけでなく、人間が読める形式でありながら、より小規模な LLM の計画をガイドすることもできます。
簡単なデモンストレーションを 1 つだけ行うと、AutoManual はタスクの成功率を大幅に向上させ、ALFWorld ベンチマーク タスクで GPT-4-turbo で 97.4\%、GPT-3.5-turbo で 86.2\% を達成しました。
コードは https://github.com/minghchen/automanual で入手できます。
要約(オリジナル)
Large Language Models (LLM) based agents have shown promise in autonomously completing tasks across various domains, e.g., robotics, games, and web navigation. However, these agents typically require elaborate design and expert prompts to solve tasks in specific domains, which limits their adaptability. We introduce AutoManual, a framework enabling LLM agents to autonomously build their understanding through interaction and adapt to new environments. AutoManual categorizes environmental knowledge into diverse rules and optimizes them in an online fashion by two agents: 1) The Planner codes actionable plans based on current rules for interacting with the environment. 2) The Builder updates the rules through a well-structured rule system that facilitates online rule management and essential detail retention. To mitigate hallucinations in managing rules, we introduce a case-conditioned prompting strategy for the Builder. Finally, the Formulator agent compiles these rules into a comprehensive manual. The self-generated manual can not only improve the adaptability but also guide the planning of smaller LLMs while being human-readable. Given only one simple demonstration, AutoManual significantly improves task success rates, achieving 97.4\% with GPT-4-turbo and 86.2\% with GPT-3.5-turbo on ALFWorld benchmark tasks. The code is available at https://github.com/minghchen/automanual.
arxiv情報
著者 | Minghao Chen,Yihang Li,Yanting Yang,Shiyu Yu,Binbin Lin,Xiaofei He |
発行日 | 2024-07-29 12:16:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google