RepairBench: Leaderboard of Frontier Models for Program Repair

要約

AI 駆動のプログラム修復では、AI モデルを使用してパッチを作成し、バグのあるソフトウェアを修復します。
AI の急速な進歩は、プログラム修復の最先端のパフォーマンスに確実に影響を与えます。
ただし、この進捗状況を把握するには、頻繁かつ標準化された評価が必要です。
私たちは、AI 主導のプログラム修復のための新しいリーダーボード、RepairBench を提案します。
RepairBench の主な特徴は次のとおりです。1) 実行ベースです。すべてのパッチはコンパイルされ、テスト スイートに対して実行されます。2) 頻繁かつ標準化された方法でフロンティア モデルを評価します。
RepairBench は、Defects4J と GitBug-Java という 2 つの高品質ベンチマークを活用して、実際のプログラム修復タスクに対してフロンティア モデルを評価します。
RepairBenchの評価フレームワークを公開しています。
新しいフロンティアモデルがリリースされるとリーダーボードを更新します。

要約(オリジナル)

AI-driven program repair uses AI models to repair buggy software by producing patches. Rapid advancements in AI surely impact state-of-the-art performance of program repair. Yet, grasping this progress requires frequent and standardized evaluations. We propose RepairBench, a novel leaderboard for AI-driven program repair. The key characteristics of RepairBench are: 1) it is execution-based: all patches are compiled and executed against a test suite, 2) it assesses frontier models in a frequent and standardized way. RepairBench leverages two high-quality benchmarks, Defects4J and GitBug-Java, to evaluate frontier models against real-world program repair tasks. We publicly release the evaluation framework of RepairBench. We will update the leaderboard as new frontier models are released.

arxiv情報

著者 André Silva,Martin Monperrus
発行日 2024-09-27 17:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク