要約
大規模言語モデル (LLM) の最近の進歩により、広範囲にわたる複雑なタスクを処理できるエージェント システムが急速に成長しました。
しかし、現在の研究は主に手動のタスク固有の設計に依存しており、新しいタスクへの適応性が制限されています。
この論文では、新しい研究課題であるモジュール化 LLM エージェント検索 (MoLAS) を紹介します。
私たちは、既存の LLM エージェント設計を、統一された IO インターフェイスを備えた 4 つの基本モジュール (計画、推論、ツール使用、メモリ) に抽象化するモジュール設計空間を提案します。
この設計空間に基づいて、AgentSquare と呼ばれる新しい LLM エージェント検索フレームワークを紹介します。このフレームワークでは、最適化された LLM エージェントを効率的に検索するために、モジュールの進化と再結合という 2 つのコア メカニズムが導入されています。
このプロセスをさらに加速するために、コンテキスト内のサロゲート モデルを使用して見込みのないエージェント設計をスキップするパフォーマンス予測子を設計します。
Web、具体化、ツール使用、ゲーム アプリケーションのさまざまなシナリオをカバーする 6 つのベンチマークにわたる広範な実験により、AgentSquare が手作りのエージェントを大幅に上回り、最もよく知られている人間の設計に対して平均 17.2% のパフォーマンス向上を達成したことが示されました。
さらに、AgentSquare は解釈可能な設計の洞察を生成し、エージェント アーキテクチャとそのタスク パフォーマンスへの影響をより深く理解できるようにします。
私たちは、モジュラー設計空間と AgentSquare 検索フレームワークが、以前に成功した設計の可能性を最大限に活用し、研究コミュニティの共同努力を統合するためのプラットフォームを提供すると信じています。
コード リポジトリは https://github.com/tsinghua-fib-lab/AgentSquare で入手できます。
要約(オリジナル)
Recent advancements in Large Language Models (LLMs) have led to a rapid growth of agentic systems capable of handling a wide range of complex tasks. However, current research largely relies on manual, task-specific design, limiting their adaptability to novel tasks. In this paper, we introduce a new research problem: Modularized LLM Agent Search (MoLAS). We propose a modular design space that abstracts existing LLM agent designs into four fundamental modules with uniform IO interface: Planning, Reasoning, Tool Use, and Memory. Building on this design space, we present a novel LLM agent search framework called AgentSquare, which introduces two core mechanisms, i.e., module evolution and recombination, to efficiently search for optimized LLM agents. To further accelerate the process, we design a performance predictor that uses in-context surrogate models to skip unpromising agent designs. Extensive experiments across six benchmarks, covering the diverse scenarios of web, embodied, tool use and game applications, show that AgentSquare substantially outperforms hand-crafted agents, achieving an average performance gain of 17.2% against best-known human designs. Moreover, AgentSquare can generate interpretable design insights, enabling a deeper understanding of agentic architecture and its impact on task performance. We believe that the modular design space and AgentSquare search framework offer a platform for fully exploiting the potential of prior successful designs and consolidating the collective efforts of research community. Code repo is available at https://github.com/tsinghua-fib-lab/AgentSquare.
arxiv情報
著者 | Yu Shang,Yu Li,Keyu Zhao,Likai Ma,Jiahe Liu,Fengli Xu,Yong Li |
発行日 | 2024-11-18 17:25:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google