要約
大規模言語モデル(Large Language Model: LLM)ベースのエージェントは、大きな注目を集めており、ますます人気が高まっている。さらに、プランニング能力はLLMベースのエージェントにとって重要な要素であり、環境とのインタラクションを含み、プランニングタスクを完了するためのアクションを実行する。本論文では、エージェントトレーニングと呼ばれるインストラクションチューニングを通じて、LLMのプランニング能力を向上させることを検討する。最近の研究では、エキスパートレベルの軌跡をLLMのインストラクションチューニングに利用することで、LLMのプランニング能力が効果的に向上することが実証されている。しかし、既存の研究は、主に手動で設計された計画タスクと環境から軌道を合成することに焦点を当てている。これらの環境やタスクの作成には多大な労力を要するため、十分に多様で広範な軌跡を生成することができない。この限界に対処するため、本論文では、多様な環境と、簡単なものから難しいものまで段階的な計画タスクの自動合成を探求する。まずLLMを活用して環境を生成し、次にこれらの環境を条件とする計画タスクを生成するフレームワークAgentGenを紹介する。具体的には、環境の多様性を向上させるために、環境を合成するためのコンテキストとして、様々なドメイン固有のテキストセグメントから構成されるインスピレーションコーパスを用いることを提案する。さらに、生成されるプランニングタスクの難易度多様性を向上させるために、プランニングタスクを簡単な方向と難しい方向から進化させ、より滑らかな難易度曲線を持つタスクセットを合成する双方向進化法Bi-Evolを提案する。AgentBoardから得られた評価結果は、AgentGenがLLMの計画能力を大幅に向上させることを示している。例えば、AgentGen命令でチューニングされたLlama-3 8Bは、総合性能でGPT-3.5を上回る。さらに、特定のタスクでは、GPT-4を上回ることさえあります。
要約(オリジナル)
Large Language Model (LLM) based agents have garnered significant attention and are becoming increasingly popular. Furthermore, planning ability is a crucial component of an LLM-based agent, involving interaction with the environment and executing actions to complete a planning task, which generally entails achieving a desired goal from an initial state. This paper investigates enhancing the planning abilities of LLMs through instruction tuning, referred to as agent training. Recent studies have demonstrated that utilizing expert-level trajectory for instruction-tuning LLMs effectively enhances their planning capabilities. However, existing work primarily focuses on synthesizing trajectories from manually designed planning tasks and environments. The labor-intensive nature of creating these environments and tasks impedes the generation of sufficiently varied and extensive trajectories. To address this limitation, this paper explores the automated synthesis of diverse environments and a gradual range of planning tasks, from easy to difficult. We introduce a framework, AgentGen, that leverages LLMs first to generate environments and subsequently generate planning tasks conditioned on these environments. Specifically, to improve environmental diversity, we propose using an inspiration corpus composed of various domain-specific text segments as the context for synthesizing environments. Moreover, to increase the difficulty diversity of generated planning tasks, we propose a bidirectional evolution method, Bi-Evol, that evolves planning tasks from easier and harder directions to synthesize a task set with a smoother difficulty curve. The evaluation results derived from AgentBoard show that AgentGen greatly improves LLMs’ planning ability, e.g., the AgentGen instruction-tuned Llama-3 8B surpasses GPT-3.5 in overall performance. Moreover, in certain tasks, it even outperforms GPT-4.
arxiv情報
著者 | Mengkang Hu,Pu Zhao,Can Xu,Qingfeng Sun,Jianguang Lou,Qingwei Lin,Ping Luo,Saravan Rajmohan,Dongmei Zhang |
発行日 | 2024-08-01 17:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |