要約
LLMベースのマルチエージェントシステム(MAS)は、複数の専門エージェント間の協力を可能にすることにより、単一LLMの機能を拡張します。
ただし、ほとんどの既存のMASフレームワークは、すべてのエージェントを駆動するために単一のLLMに依存しており、システムのインテリジェンスをそのモデルの限界まで制約しています。
このペーパーでは、エージェントが多様なLLMによって駆動され、システムの可能性を多様なLLMの集合的な知性に向けて、不均一なLLM駆動型MAS(X-MAS)のパラダイムを探ります。
さまざまなドメインとMAS関連機能にわたるさまざまなLLMのパフォーマンスを評価するために設計された包括的なテストベンチであるX-Mas-Benchを紹介します。
広範な経験的研究として、5つのドメイン(21のテストセットを含む)と5つの機能にわたって27のLLMを評価し、各ドメイン機能の組み合わせの最適なモデル選択を特定するために170万以上の評価を実施します。
これらの調査結果に基づいて、均質から不均一なLLM駆動型MASに移行すると、構造的な再設計を必要とせずにシステムのパフォーマンスを大幅に向上させることができることを実証します。
具体的には、チャットボットのみのMASシナリオでは、不均一な構成により、数学データセットで最大8.4 \%のパフォーマンス改善が得られます。
混合チャットボットリーズンシナリオでは、不均一なMASがAIMEデータセットで顕著な47 \%パフォーマンスブーストを達成することができます。
私たちの結果は、MASにおける不均一なLLMの変革の可能性を強調しており、スケーラブルで共同AIシステムを進めるための有望な手段を強調しています。
要約(オリジナル)
LLM-based multi-agent systems (MAS) extend the capabilities of single LLMs by enabling cooperation among multiple specialized agents. However, most existing MAS frameworks rely on a single LLM to drive all agents, constraining the system’s intelligence to the limit of that model. This paper explores the paradigm of heterogeneous LLM-driven MAS (X-MAS), where agents are powered by diverse LLMs, elevating the system’s potential to the collective intelligence of diverse LLMs. We introduce X-MAS-Bench, a comprehensive testbed designed to evaluate the performance of various LLMs across different domains and MAS-related functions. As an extensive empirical study, we assess 27 LLMs across 5 domains (encompassing 21 test sets) and 5 functions, conducting over 1.7 million evaluations to identify optimal model selections for each domain-function combination. Building on these findings, we demonstrate that transitioning from homogeneous to heterogeneous LLM-driven MAS can significantly enhance system performance without requiring structural redesign. Specifically, in a chatbot-only MAS scenario, the heterogeneous configuration yields up to 8.4\% performance improvement on the MATH dataset. In a mixed chatbot-reasoner scenario, the heterogeneous MAS could achieve a remarkable 47\% performance boost on the AIME dataset. Our results underscore the transformative potential of heterogeneous LLMs in MAS, highlighting a promising avenue for advancing scalable, collaborative AI systems.
arxiv情報
著者 | Rui Ye,Xiangrui Liu,Qimin Wu,Xianghe Pang,Zhenfei Yin,Lei Bai,Siheng Chen |
発行日 | 2025-05-22 17:56:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google