要約
近年、AI ベースのソフトウェア エンジニアリングは、事前トレーニングされたモデルから高度なエージェント ワークフローへと進歩しており、ソフトウェア開発エージェントは次の大きな飛躍となります。
これらのエージェントは、推論、計画、外部環境との対話が可能で、複雑なソフトウェア エンジニアリング タスクに有望なソリューションを提供します。
ただし、大規模言語モデル (LLM) によって生成されたコードは多くの研究で評価されていますが、特に現実世界の設定におけるエージェント生成パッチに関する包括的な研究は不足しています。
この調査では、SWE-Bench Verified による実際の GitHub の問題 500 件について、上位 10 人のエージェントから提供された 4,892 のパッチを評価することで、コード品質への影響に焦点を当て、そのギャップに対処しています。
私たちの分析では、単一のエージェントが優勢ではなく、170 の問題が未解決であることが示されており、改善の余地があることが示されています。
単体テストに合格し、問題が解決されたパッチであっても、エージェントはリポジトリ開発者からのゴールド パッチとは異なるファイルや機能の変更を行っており、ベンチマークのテスト ケース カバレッジの限界が明らかになりました。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新たなバグや脆弱性を回避しました。
一部のエージェントはコードの複雑さを増大させましたが、多くのエージェントはコードの重複を削減し、コードの臭いを最小限に抑えました。
最後に、エージェントはより単純なコードベースでより良いパフォーマンスを示し、複雑なタスクをより小さなサブタスクに分割することで効率が向上する可能性があることを示唆しています。
この調査では、実際の GitHub の問題に関してエージェントが生成したパッチの包括的な評価を初めて提供し、AI 主導のソフトウェア開発を進めるための洞察を提供します。
要約(オリジナル)
In recent years, AI-based software engineering has progressed from pre-trained models to advanced agentic workflows, with Software Development Agents representing the next major leap. These agents, capable of reasoning, planning, and interacting with external environments, offer promising solutions to complex software engineering tasks. However, while much research has evaluated code generated by large language models (LLMs), comprehensive studies on agent-generated patches, particularly in real-world settings, are lacking. This study addresses that gap by evaluating 4,892 patches from 10 top-ranked agents on 500 real-world GitHub issues from SWE-Bench Verified, focusing on their impact on code quality. Our analysis shows no single agent dominated, with 170 issues unresolved, indicating room for improvement. Even for patches that passed unit tests and resolved issues, agents made different file and function modifications compared to the gold patches from repository developers, revealing limitations in the benchmark’s test case coverage. Most agents maintained code reliability and security, avoiding new bugs or vulnerabilities; while some agents increased code complexity, many reduced code duplication and minimized code smells. Finally, agents performed better on simpler codebases, suggesting that breaking complex tasks into smaller sub-tasks could improve effectiveness. This study provides the first comprehensive evaluation of agent-generated patches on real-world GitHub issues, offering insights to advance AI-driven software development.
arxiv情報
著者 | Zhi Chen,Lingxiao Jiang |
発行日 | 2024-12-27 13:52:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google