要約
AI 駆動のプログラム修復では、AI モデルを使用してパッチを作成し、バグのあるソフトウェアを修復します。
AI の急速な進歩は、プログラム修復の最先端のパフォーマンスに確実に影響を与えます。
ただし、この進捗状況を把握するには、頻繁かつ標準化された評価が必要です。
私たちは、AI 主導のプログラム修復のための新しいリーダーボード、RepairBench を提案します。
RepairBench の主な特徴は次のとおりです。1) 実行ベースです。すべてのパッチはコンパイルされ、テスト スイートに対して実行されます。2) 頻繁かつ標準化された方法でフロンティア モデルを評価します。
RepairBench は、Defects4J と GitBug-Java という 2 つの高品質ベンチマークを活用して、実際のプログラム修復タスクに対してフロンティア モデルを評価します。
RepairBenchの評価フレームワークを公開しています。
新しいフロンティアモデルがリリースされるとリーダーボードを更新します。
要約(オリジナル)
AI-driven program repair uses AI models to repair buggy software by producing patches. Rapid advancements in AI surely impact state-of-the-art performance of program repair. Yet, grasping this progress requires frequent and standardized evaluations. We propose RepairBench, a novel leaderboard for AI-driven program repair. The key characteristics of RepairBench are: 1) it is execution-based: all patches are compiled and executed against a test suite, 2) it assesses frontier models in a frequent and standardized way. RepairBench leverages two high-quality benchmarks, Defects4J and GitBug-Java, to evaluate frontier models against real-world program repair tasks. We publicly release the evaluation framework of RepairBench. We will update the leaderboard as new frontier models are released.
arxiv情報
著者 | André Silva,Martin Monperrus |
発行日 | 2024-09-27 17:52:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google