要約
ソフトウェアの進化において、GitHub リポジトリ内で新たに発生した問題を解決することは、新しいコードの組み込みだけでなく、既存の機能の維持も伴う複雑な課題です。
大規模言語モデル (LLM) は、コードの生成と理解において有望であることが示されていますが、特にリポジトリ レベルでのコード変更において困難に直面しています。
これらの課題を克服するために、LLM が GitHub の問題を解決できない理由を実証的に研究し、いくつかの影響要因を分析します。
経験的な発見に動機付けられ、私たちは、ソフトウェアの進化に合わせてカスタマイズされた 4 種類のエージェント (マネージャー、リポジトリ管理者、開発者、および品質保証エンジニア エージェント) で構成される、GitHub 問題解決のための新しい LLM ベースのマルチエージェント フレームワーク MAGIS を提案します。
このフレームワークは、計画およびコーディングのプロセスにおけるさまざまなエージェントのコラボレーションを活用して、LLM の可能性を解き放ち、GitHub の問題を解決します。
実験では、SWE ベンチ ベンチマークを使用して、MAGIS を GPT-3.5、GPT-4、Claude-2 などの一般的な LLM と比較します。
MAGIS は GitHub の問題を 13.94% 解決でき、これはベースラインを大幅に上回ります。
具体的には、MAGIS は、我々の手法のベースとなる LLM である GPT-4 を直接適用した場合と比較して、分解率が 8 倍増加しました。
また、行の位置やタスクの割り当てなど、GitHub の問題解決率を向上させる要因も分析します。
要約(オリジナル)
In software evolution, resolving the emergent issues within GitHub repositories is a complex challenge that involves not only the incorporation of new code but also the maintenance of existing functionalities. Large Language Models (LLMs) have shown promise in code generation and understanding but face difficulties in code change, particularly at the repository level. To overcome these challenges, we empirically study the reason why LLMs mostly fail to resolve GitHub issues and analyze some impact factors. Motivated by the empirical findings, we propose a novel LLM-based Multi-Agent framework for GitHub Issue reSolution, MAGIS, consisting of four kinds of agents customized for the software evolution: Manager, Repository Custodian, Developer, and Quality Assurance Engineer agents. This framework leverages the collaboration of various agents in the planning and coding process to unlock the potential of LLMs to resolve GitHub issues. In experiments, we employ the SWE-bench benchmark to compare MAGIS with popular LLMs, including GPT-3.5, GPT-4, and Claude-2. MAGIS can resolve 13.94% GitHub issues, which significantly outperforms the baselines. Specifically, MAGIS achieves an eight-fold increase in resolved ratio over the direct application of GPT-4, the based LLM of our method. We also analyze the factors for improving GitHub issue resolution rates, such as line location, task allocation, etc.
arxiv情報
著者 | Wei Tao,Yucheng Zhou,Wenqiang Zhang,Yu Cheng |
発行日 | 2024-03-26 17:57:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google