要約
大規模言語モデル(LLM)ベースのエージェントは、人間のように複雑なタスクを実行する能力が証明されている。しかし、オープンソース化されたLLMとGPTシリーズのような商用モデルとの間にはまだ大きな隔たりがある。本論文では、命令チューニングによるLLMのエージェント汎化能力の向上に焦点を当てる。我々はまず、既存のエージェント学習コーパスは、保持された評価セットでは満足のいく結果を示すが、保持された評価セットでは汎化できないことを観察する。このようなエージェントチューニングの研究は、深刻なフォーマットエラーに直面し、同じ間違いに長い間はまり込むことが多い。我々は、汎化能力の低さは、いくつかの手動エージェント環境への過剰適合と、新しい状況への適応の欠如に起因すると分析している。エージェントは間違った行動ステップと格闘し、経験から学ぶことができず、既存の観察と行動の関係を記憶するだけである。この洞察に触発され、我々はエージェントチューニングのための新しいAgentRefineフレームワークを提案する。そのコアとなるアイデアは、モデルが軌跡を観察することで間違いを修正することを学習できるようにすることである。具体的には、多様な環境とタスクを包含するエージェント合成フレームワークを提案し、強力なLLMが環境フィードバックに従ってエラーアクションを洗練するよう促す。AgentRefineは、多様なエージェントタスクに対する汎化能力において、最先端のエージェントチューニングの研究を大幅に上回る。また、摂動に対してより頑健であり、推論において多様な思考を生み出すことができる。我々の発見は、エージェントの汎化と自己洗練の相関関係を確立し、今後の研究に新たなパラダイムを提供する。
要約(オリジナル)
Large Language Model (LLM) based agents have proved their ability to perform complex tasks like humans. However, there is still a large gap between open-sourced LLMs and commercial models like the GPT series. In this paper, we focus on improving the agent generalization capabilities of LLMs via instruction tuning. We first observe that the existing agent training corpus exhibits satisfactory results on held-in evaluation sets but fails to generalize to held-out sets. These agent-tuning works face severe formatting errors and are frequently stuck in the same mistake for a long while. We analyze that the poor generalization ability comes from overfitting to several manual agent environments and a lack of adaptation to new situations. They struggle with the wrong action steps and can not learn from the experience but just memorize existing observation-action relations. Inspired by the insight, we propose a novel AgentRefine framework for agent-tuning. The core idea is to enable the model to learn to correct its mistakes via observation in the trajectory. Specifically, we propose an agent synthesis framework to encompass a diverse array of environments and tasks and prompt a strong LLM to refine its error action according to the environment feedback. AgentRefine significantly outperforms state-of-the-art agent-tuning work in terms of generalization ability on diverse agent tasks. It also has better robustness facing perturbation and can generate diversified thought in inference. Our findings establish the correlation between agent generalization and self-refinement and provide a new paradigm for future research.
arxiv情報
著者 | Dayuan Fu,Keqing He,Yejie Wang,Wentao Hong,Zhuoma Gongque,Weihao Zeng,Wei Wang,Jingang Wang,Xunliang Cai,Weiran Xu |
発行日 | 2025-01-03 08:55:19+00:00 |
arxivサイト | arxiv_id(pdf) |