Evaluating Agent-based Program Repair at Google

要約

エージェントベースのプログラム修復は、最新の LLM の計画、ツールの使用、コード生成機能を組み合わせることにより、複雑なバグをエンドツーエンドで自動的に解決します。
最近の研究では、高評価の GitHub Python プロジェクトのバグを集めた人気のオープンソース SWE-Bench でのエージェント ベースの修復アプローチの使用が検討されています。
さらに、このベンチマークのバグを解決するために、SWE-Agent などのさまざまなエージェント アプローチが提案されています。
このペーパーでは、エンタープライズ コンテキストでバグに対処するためのエージェント アプローチの使用の実現可能性を検討します。
これを調査するために、Google の問題追跡システムから抽出された 178 個のバグの評価セットを厳選しました。
このデータセットには、人間が報告したバグ (78 件) と機械が報告したバグ (100 件) の両方が含まれています。
このベンチマークで修復パフォーマンスのベースラインを確立するために、Google の開発環境内で動作できる SWE-Agent と精神的に似たエージェントである Passerine を実装します。
20 の軌跡サンプルと Gemini 1.5 Pro を使用すると、Passerine は評価セット内のマシン報告のバグの 73% と人間報告のバグの 25.6% についてバグ テストに合格する (つまり、妥当な) パッチを作成できることを示します。
手動による検査の結果、マシンが報告したバグの 43%、人間が報告したバグの 17.9% に、グラウンドトゥルース パッチと意味的に同等のパッチが少なくとも 1 つ含まれていることがわかりました。
これらの結果は、産業的に関連性のあるベンチマークのベースラインを確立します。これまでに示したように、このベンチマークには、一般的な SWE のものと比較して、言語の多様性、サイズ、変更の広がりなどの点で、異なるディストリビューションから引き出されたバグが含まれています。
ベンチデータセット。

要約(オリジナル)

Agent-based program repair offers to automatically resolve complex bugs end-to-end by combining the planning, tool use, and code generation abilities of modern LLMs. Recent work has explored the use of agent-based repair approaches on the popular open-source SWE-Bench, a collection of bugs from highly-rated GitHub Python projects. In addition, various agentic approaches such as SWE-Agent have been proposed to solve bugs in this benchmark. This paper explores the viability of using an agentic approach to address bugs in an enterprise context. To investigate this, we curate an evaluation set of 178 bugs drawn from Google’s issue tracking system. This dataset spans both human-reported (78) and machine-reported bugs (100). To establish a repair performance baseline on this benchmark, we implement Passerine, an agent similar in spirit to SWE-Agent that can work within Google’s development environment. We show that with 20 trajectory samples and Gemini 1.5 Pro, Passerine can produce a patch that passes bug tests (i.e., plausible) for 73% of machine-reported and 25.6% of human-reported bugs in our evaluation set. After manual examination, we found that 43% of machine-reported bugs and 17.9% of human-reported bugs have at least one patch that is semantically equivalent to the ground-truth patch. These results establish a baseline on an industrially relevant benchmark, which as we show, contains bugs drawn from a different distribution — in terms of language diversity, size, and spread of changes, etc. — compared to those in the popular SWE-Bench dataset.

arxiv情報

著者 Pat Rondon,Renyao Wei,José Cambronero,Jürgen Cito,Aaron Sun,Siddhant Sanyam,Michele Tufano,Satish Chandra
発行日 2025-01-13 18:09:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク