要約
ソフトウェア開発において、GitHub リポジトリ内で新たに発生した問題を解決することは、新しいコードの組み込みだけでなく、既存のコードのメンテナンスも伴う複雑な課題です。
大規模言語モデル (LLM) はコード生成では有望ですが、特にリポジトリ レベルで Github の問題を解決するのが困難に直面しています。
この課題を克服するために、LLM が GitHub の問題を解決できない理由を実証的に研究し、主な要因を分析します。
経験的な発見に動機付けられて、私たちは、ソフトウェアの進化のためにカスタマイズされた 4 つのエージェント (マネージャー、リポジトリ管理者、開発者、品質保証エンジニア エージェント) で構成される、GitHub 問題解決のための新しい LLM ベースのマルチエージェント フレームワーク MAGIS を提案します。
このフレームワークは、計画およびコーディングのプロセスにおけるさまざまなエージェントのコラボレーションを活用して、LLM の可能性を解き放ち、GitHub の問題を解決します。
実験では、SWE ベンチ ベンチマークを使用して、MAGIS を GPT-3.5、GPT-4、Claude-2 などの一般的な LLM と比較します。
MAGIS は GitHub の問題を 13.94% 解決でき、ベースラインを大幅に上回ります。
具体的には、MAGIS は、高度な LLM である GPT-4 を直接適用した場合と比較して、分解能が 8 倍増加します。
要約(オリジナル)
In software development, resolving the emergent issues within GitHub repositories is a complex challenge that involves not only the incorporation of new code but also the maintenance of existing code. Large Language Models (LLMs) have shown promise in code generation but face difficulties in resolving Github issues, particularly at the repository level. To overcome this challenge, we empirically study the reason why LLMs fail to resolve GitHub issues and analyze the major factors. Motivated by the empirical findings, we propose a novel LLM-based Multi-Agent framework for GitHub Issue reSolution, MAGIS, consisting of four agents customized for software evolution: Manager, Repository Custodian, Developer, and Quality Assurance Engineer agents. This framework leverages the collaboration of various agents in the planning and coding process to unlock the potential of LLMs to resolve GitHub issues. In experiments, we employ the SWE-bench benchmark to compare MAGIS with popular LLMs, including GPT-3.5, GPT-4, and Claude-2. MAGIS can resolve 13.94% GitHub issues, significantly outperforming the baselines. Specifically, MAGIS achieves an eight-fold increase in resolved ratio over the direct application of GPT-4, the advanced LLM.
arxiv情報
著者 | Wei Tao,Yucheng Zhou,Yanlin Wang,Wenqiang Zhang,Hongyu Zhang,Yu Cheng |
発行日 | 2024-06-27 12:40:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google