要約
大規模な言語モデル(LLM)ベースのエージェントは、人間のような複雑なタスクを実行する能力を証明しています。
ただし、オープンソースのLLMSとGPTシリーズのような商用モデルとの間には、まだ大きなギャップがあります。
この論文では、命令チューニングを介してLLMSのエージェント一般化能力の改善に焦点を当てています。
まず、既存のエージェントトレーニングコーパスは、保留中の評価セットで満足のいく結果を示していますが、開催セットに一般化できないことを観察します。
これらのエージェントチューニング作業は、深刻なフォーマットエラーに直面しており、長い間同じ間違いで頻繁に詰まっています。
貧弱な一般化能力は、過剰適合からいくつかの手動エージェント環境への適応と新しい状況への適応の欠如から得られることを分析します。
彼らは間違ったアクションステップに苦労しており、経験から学ぶことはできませんが、既存の観察とアクションの関係を記憶するだけです。
Insightに触発されて、エージェントチューニングのための新しいAgentRefineフレームワークを提案します。
核となるアイデアは、モデルが軌道での観察を介して間違いを修正することを学ぶことを可能にすることです。
具体的には、多様な環境とタスクを包含するエージェント合成フレームワークを提案し、環境フィードバックに従ってエラーアクションを改善するように強力なLLMを促します。
AgentRefineは、多様なエージェントタスクの一般化能力の観点から、最先端のエージェント調整作業よりも大幅に優れています。
また、摂動に直面している堅牢性が向上し、推論で多様な思考を生成できます。
私たちの調査結果は、エージェントの一般化と自己修正の間の相関を確立し、将来の研究のための新しいパラダイムを提供します。
要約(オリジナル)
Large Language Model (LLM) based agents have proved their ability to perform complex tasks like humans. However, there is still a large gap between open-sourced LLMs and commercial models like the GPT series. In this paper, we focus on improving the agent generalization capabilities of LLMs via instruction tuning. We first observe that the existing agent training corpus exhibits satisfactory results on held-in evaluation sets but fails to generalize to held-out sets. These agent-tuning works face severe formatting errors and are frequently stuck in the same mistake for a long while. We analyze that the poor generalization ability comes from overfitting to several manual agent environments and a lack of adaptation to new situations. They struggle with the wrong action steps and can not learn from the experience but just memorize existing observation-action relations. Inspired by the insight, we propose a novel AgentRefine framework for agent-tuning. The core idea is to enable the model to learn to correct its mistakes via observation in the trajectory. Specifically, we propose an agent synthesis framework to encompass a diverse array of environments and tasks and prompt a strong LLM to refine its error action according to the environment feedback. AgentRefine significantly outperforms state-of-the-art agent-tuning work in terms of generalization ability on diverse agent tasks. It also has better robustness facing perturbation and can generate diversified thought in inference. Our findings establish the correlation between agent generalization and self-refinement and provide a new paradigm for future research.
arxiv情報
著者 | Dayuan Fu,Keqing He,Yejie Wang,Wentao Hong,Zhuoma Gongque,Weihao Zeng,Wei Wang,Jingang Wang,Xunliang Cai,Weiran Xu |
発行日 | 2025-02-24 12:42:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google