Dynamic LLM-Agent Network: An LLM-agent Collaboration Framework with Agent Team Optimization

要約

大規模言語モデル(LLM)エージェントは、様々なタスクにおいて有効であることが示されており、複数のLLMエージェントをアンサンブルすることで、その性能をさらに向上させることができる。既存のアプローチは、静的なアーキテクチャで相互に作用する固定されたエージェントセットを採用しているため、様々なタスクへの汎用性が制限され、これらのエージェントを設計する際に人間の強い事前知識が必要となる。本研究では、タスククエリに基づく動的な相互作用アーキテクチャで通信するエージェントの戦略的なチームを構築することを提案する。具体的には、推論やコード生成のような複雑なタスクにおけるLLM-エージェント協調のための動的LLM-エージェントネットワーク(Dynamic LLM-Agent Network:DyLAN}$)というフレームワークを構築する。DyLANは、推論時間のエージェント選択と早期停止機構を備えた動的アーキテクチャで、エージェントが複数ラウンドにわたって相互作用することを可能にし、性能と効率を向上させる。さらに、$textit{Agent Importance Score}$と呼ばれる教師なし指標に基づく自動エージェントチーム最適化アルゴリズムを設計し、各エージェントの貢献度に基づいて最適なエージェントを選択することを可能にする。経験的に、DyLANが推論とコード生成の両タスクにおいて、妥当な計算コストで優れた性能を発揮することを示す。DyLANは、GPT-35-turbo上での単一実行と比較して、MATHで13.0%、HumanEvalで13.3%の改善を達成した。MMLUの特定の課題では、DyLANのエージェントチームの最適化により、精度が最大25.0%向上した。

要約(オリジナル)

Large language model (LLM) agents have been shown effective on a wide range of tasks, and by ensembling multiple LLM agents, their performances could be further improved. Existing approaches employ a fixed set of agents to interact with each other in a static architecture, which limits their generalizability to various tasks and requires strong human prior in designing these agents. In this work, we propose to construct a strategic team of agents communicating in a dynamic interaction architecture based on the task query. Specifically, we build a framework named Dynamic LLM-Agent Network ($\textbf{DyLAN}$) for LLM-agent collaboration on complicated tasks like reasoning and code generation. DyLAN enables agents to interact for multiple rounds in a dynamic architecture with inference-time agent selection and an early-stopping mechanism to improve performance and efficiency. We further design an automatic agent team optimization algorithm based on an unsupervised metric termed $\textit{Agent Importance Score}$, enabling the selection of best agents based on the contribution each agent makes. Empirically, we demonstrate that DyLAN performs well in both reasoning and code generation tasks with reasonable computational cost. DyLAN achieves 13.0% and 13.3% improvement on MATH and HumanEval, respectively, compared to a single execution on GPT-35-turbo. On specific subjects of MMLU, agent team optimization in DyLAN increases accuracy by up to 25.0%.

arxiv情報

著者 Zijun Liu,Yanzhe Zhang,Peng Li,Yang Liu,Diyi Yang
発行日 2023-10-03 16:05:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.MA パーマリンク