RepairBench: Leaderboard of Frontier Models for Program Repair

要約

AI 駆動のプログラム修復では、AI モデルを使用してパッチを作成し、バグのあるソフトウェアを修復します。
AI の急速な進歩は、プログラム修復の最先端のパフォーマンスに確実に影響を与えます。
ただし、この進捗状況を把握するには、頻繁かつ標準化された評価が必要です。
私たちは、AI 主導のプログラム修復のための新しいリーダーボード、RepairBench を提案します。
RepairBench の主な特徴は次のとおりです。1) 実行ベースです。すべてのパッチはコンパイルされ、テストスイートに対して実行されます。2) 頻繁かつ標準化された方法でフロンティアモデルを評価します。
RepairBench は、Defects4J と GitBug-Java という 2 つの高品質ベンチマークを活用して、実際のプログラム修復タスクに対してフロンティアモデルを評価します。
RepairBenchの評価フレームワークを公開しています。
新しいフロンティアモデルがリリースされるとリーダーボードを更新します。

要約(オリジナル)

AI-driven program repair uses AI models to repair buggy software by producing patches. Rapid advancements in AI surely impact state-of-the-art performance of program repair. Yet, grasping this progress requires frequent and standardized evaluations. We propose RepairBench, a novel leaderboard for AI-driven program repair. The key characteristics of RepairBench are: 1) it is execution-based: all patches are compiled and executed against a test suite, 2) it assesses frontier models in a frequent and standardized way. RepairBench leverages two high-quality benchmarks, Defects4J and GitBug-Java, to evaluate frontier models against real-world program repair tasks. We publicly release the evaluation framework of RepairBench. We will update the leaderboard as new frontier models are released.

arxiv情報

著者	André Silva,Martin Monperrus
発行日	2024-09-27 17:52:34+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

RepairBench: Leaderboard of Frontier Models for Program Repair

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー