AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

要約

多様なタスクを処理し、さまざまな環境にわたって進化できるジェネラリスト エージェントを構築することは、AI コミュニティの長期的な目標です。
大規模言語モデル (LLM) は、その汎用化された機能により、このようなエージェントを構築するための有望な基盤と考えられています。
現在のアプローチでは、LLM ベースのエージェントが専門家が提供する軌道を段階的に模倣するため、人間の監視が必要ですが、拡張が難しく、環境探索が制限されます。
あるいは、エージェントに隔離された環境で探索と学習をさせ、その結果、一般化が限られた専門エージェントになります。
このペーパーでは、自己進化機能を備えた汎用的な LLM ベースのエージェントの構築に向けた第一歩を踏み出します。
私たちは次の 3 つの要素を特定します。1) エージェントの探索と学習のための多様な環境、2) エージェントに基本的な能力と事前知識を身に付けるために設定された軌道、3) 効果的でスケーラブルな進化方法。
私たちは AgentGym を提案します。これは、広範でリアルタイム、ユニフォーマット、同時エージェント探索のためのさまざまな環境とタスクを備えた新しいフレームワークです。
AgentGym には、拡張された命令を含むデータベース、ベンチマーク スイート、環境全体にわたる高品質の軌跡も含まれています。
次に、タスクと環境全体で以前に確認されたデータを超えたエージェントの自己進化の可能性を調査するための新しい方法である AgentEvol を提案します。
実験結果は、進化したエージェントが SOTA モデルと同等の結果を達成できることを示しています。
プラットフォーム、データセット、ベンチマーク、チェックポイント、アルゴリズム実装を含む AgentGym スイートをリリースします。
AgentGym スイートは https://github.com/WooooDyy/AgentGym で入手できます。

要約(オリジナル)

Building generalist agents that can handle diverse tasks and evolve themselves across different environments is a long-term goal in the AI community. Large language models (LLMs) are considered a promising foundation to build such agents due to their generalized capabilities. Current approaches either have LLM-based agents imitate expert-provided trajectories step-by-step, requiring human supervision, which is hard to scale and limits environmental exploration; or they let agents explore and learn in isolated environments, resulting in specialist agents with limited generalization. In this paper, we take the first step towards building generally-capable LLM-based agents with self-evolution ability. We identify a trinity of ingredients: 1) diverse environments for agent exploration and learning, 2) a trajectory set to equip agents with basic capabilities and prior knowledge, and 3) an effective and scalable evolution method. We propose AgentGym, a new framework featuring a variety of environments and tasks for broad, real-time, uni-format, and concurrent agent exploration. AgentGym also includes a database with expanded instructions, a benchmark suite, and high-quality trajectories across environments. Next, we propose a novel method, AgentEvol, to investigate the potential of agent self-evolution beyond previously seen data across tasks and environments. Experimental results show that the evolved agents can achieve results comparable to SOTA models. We release the AgentGym suite, including the platform, dataset, benchmark, checkpoints, and algorithm implementations. The AgentGym suite is available on https://github.com/WooooDyy/AgentGym.

arxiv情報

著者 Zhiheng Xi,Yiwen Ding,Wenxiang Chen,Boyang Hong,Honglin Guo,Junzhe Wang,Dingwen Yang,Chenyang Liao,Xin Guo,Wei He,Songyang Gao,Lu Chen,Rui Zheng,Yicheng Zou,Tao Gui,Qi Zhang,Xipeng Qiu,Xuanjing Huang,Zuxuan Wu,Yu-Gang Jiang
発行日 2024-06-06 15:15:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク