Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

要約

大規模言語モデル (LLM) エージェントは、現実世界のソフトウェア エンジニアリング (SWE) の問題を解決する上で大きな可能性を示しています。
最も先進的なオープンソース SWE エージェントは、SWE-Bench Lite で実際の G​​itHub の問題の 27% 以上を解決できます。
ただし、これらの洗練されたエージェント フレームワークにはさまざまな強みがあり、特定のタスクでは優れている一方で、他のタスクではパフォーマンスが劣っています。
こうしたエージェントの多様性を最大限に活かすために、私たちは彼らの独自の専門知識を活用するフレームワークであるDEI(Diversity Empowered Intelligence)を提案します。
DEI は、既存の SWE エージェント フレームワーク上のメタモジュールとして機能し、問題解決を強化するためにエージェント集合体を管理します。
実験結果は、DEI に基づくエージェントの委員会が、個々のエージェントの最高のパフォーマンスを大幅に上回ることができることを示しています。
たとえば、オープンソースの SWE エージェントのグループは、SWE-Bench Lite での個別の最大解決率が 27.3% でしたが、DEI では 34.3% の解決率を達成でき、25% 向上し、ほとんどのクローズド ソース ソリューションを上回ります。
当社の最もパフォーマンスの高いグループは 55% の解決率で優れており、SWE-Bench Lite で最高のランキングを確保しています。
私たちの発見は、協調型 AI システムと、複雑なソフトウェア エンジニアリングの課題を解決する可能性に関する一連の研究の増加に貢献します。

要約(オリジナル)

Large language model (LLM) agents have shown great potential in solving real-world software engineering (SWE) problems. The most advanced open-source SWE agent can resolve over 27% of real GitHub issues in SWE-Bench Lite. However, these sophisticated agent frameworks exhibit varying strengths, excelling in certain tasks while underperforming in others. To fully harness the diversity of these agents, we propose DEI (Diversity Empowered Intelligence), a framework that leverages their unique expertise. DEI functions as a meta-module atop existing SWE agent frameworks, managing agent collectives for enhanced problem-solving. Experimental results show that a DEI-guided committee of agents is able to surpass the best individual agent’s performance by a large margin. For instance, a group of open-source SWE agents, with a maximum individual resolve rate of 27.3% on SWE-Bench Lite, can achieve a 34.3% resolve rate with DEI, making a 25% improvement and beating most closed-source solutions. Our best-performing group excels with a 55% resolve rate, securing the highest ranking on SWE-Bench Lite. Our findings contribute to the growing body of research on collaborative AI systems and their potential to solve complex software engineering challenges.

arxiv情報

著者 Kexun Zhang,Weiran Yao,Zuxin Liu,Yihao Feng,Zhiwei Liu,Rithesh Murthy,Tian Lan,Lei Li,Renze Lou,Jiacheng Xu,Bo Pang,Yingbo Zhou,Shelby Heinecke,Silvio Savarese,Huan Wang,Caiming Xiong
発行日 2024-08-13 17:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE パーマリンク