要約
大規模な言語モデルベースのマルチエージェントシステムは、ソーシャルシミュレーションと複雑なタスク解決ドメインに重大な可能性を示しています。
ただし、現在のフレームワークは、特にタスクの複雑さとエージェントの数が増加するにつれて、システムアーキテクチャの設計、クロスドメインの一般化、パフォーマンスの保証における重要な課題に直面しています。
3つのコアイノベーションを通じてこれらの課題に対処する新しいフレームワークであるAgentGroupChat-V2を紹介します。(1)ユーザークエリを階層的タスク森林構造に分解する分割完全並列アーキテクチャを、依存関係管理と分散環境処理を可能にします。
(2)タスク特性に基づいて異種のLLMの組み合わせと相互作用モードを動的に選択する適応コラボレーションエンジン。
(3)エージェント組織の最適化戦略は、効率的な問題分解のための分割統合アプローチを組み合わせたものです。
広範な実験は、エージェントグループチャット-V2の多様なドメインで優れたパフォーマンスを示しており、GSM8Kで91.50%の精度(最高のベースラインを5.6パーセントポイント超えて)、競合レベルのAIMEで30.4%の精度(ほぼ倍増)、および79.20%が人間で1パス@1をパスします。
パフォーマンスの利点は、特に改善が最先端のベースラインと比較して11パーセントポイントを超えるレベル5の数学の問題で、より高いタスクの難易度とともにますます顕著になります。
これらの結果は、AgentGroupChat-V2が、複雑な推論シナリオに大きな利点を持つ効率的な汎用LLMマルチエージェントシステムを構築するための包括的なソリューションを提供することを確認しています。
コードはhttps://github.com/mikegu721/agentgroupchat-v2で入手できます。
要約(オリジナル)
Large language model based multi-agent systems have demonstrated significant potential in social simulation and complex task resolution domains. However, current frameworks face critical challenges in system architecture design, cross-domain generalizability, and performance guarantees, particularly as task complexity and number of agents increases. We introduces AgentGroupChat-V2, a novel framework addressing these challenges through three core innovations: (1) a divide-and-conquer fully parallel architecture that decomposes user queries into hierarchical task forest structures enabling dependency management and distributed concurrent processing. (2) an adaptive collaboration engine that dynamically selects heterogeneous LLM combinations and interaction modes based on task characteristics. (3) agent organization optimization strategies combining divide-and-conquer approaches for efficient problem decomposition. Extensive experiments demonstrate AgentGroupChat-V2’s superior performance across diverse domains, achieving 91.50% accuracy on GSM8K (exceeding the best baseline by 5.6 percentage points), 30.4% accuracy on competition-level AIME (nearly doubling other methods), and 79.20% pass@1 on HumanEval. Performance advantages become increasingly pronounced with higher task difficulty, particularly on Level 5 MATH problems where improvements exceed 11 percentage points compared to state-of-the-art baselines. These results confirm that AgentGroupChat-V2 provides a comprehensive solution for building efficient, general-purpose LLM multi-agent systems with significant advantages in complex reasoning scenarios. Code is available at https://github.com/MikeGu721/AgentGroupChat-V2.
arxiv情報
著者 | Zhouhong Gu,Xiaoxuan Zhu,Yin Cai,Hao Shen,Xingzhou Chen,Qingyi Wang,Jialin Li,Xiaoran Shi,Haoran Guo,Wenxuan Huang,Hongwei Feng,Yanghua Xiao,Zheyu Ye,Yao Hu,Shaosheng Cao |
発行日 | 2025-06-18 13:24:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google