要約
最近、GitHub の問題解決が学界や産業界から大きな注目を集めています。
SWE-bench は、問題解決のパフォーマンスを測定するために提案されています。
このペーパーでは、マルチエージェント フレームワークと事前定義されたタスク グラフを採用して、報告されたバグを修復および解決し、コード リポジトリ内に新しい機能を追加する CodeR を提案します。
SWE-bench lite では、問題ごとに 1 回だけ送信した場合、CodeR は問題の 29.00% を解決できます。
私たちは CodeR の各設計がパフォーマンスに与える影響を調査し、この研究の方向性を前進させるための洞察を提供します。
要約(オリジナル)
GitHub issue resolving recently has attracted significant attention from academia and industry. SWE-bench is proposed to measure the performance in resolving issues. In this paper, we propose CodeR, which adopts a multi-agent framework and pre-defined task graphs to Repair & Resolve reported bugs and add new features within code Repository. On SWE-bench lite, CodeR is able to solve 29.00% of issues, when submitting only once for each issue. We examine the performance impact of each design of CodeR and offer insights to advance this research direction.
arxiv情報
著者 | Dong Chen,Shaoxin Lin,Muhan Zeng,Daoguang Zan,Jian-Gang Wang,Anton Cheshkov,Jun Sun,Hao Yu,Guoliang Dong,Artem Aliev,Jie Wang,Xiao Cheng,Guangtai Liang,Yuchi Ma,Pan Bian,Tao Xie,Qianxiang Wang |
発行日 | 2024-06-07 10:52:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google