RunBugRun — An Executable Dataset for Automated Program Repair

要約

タイトル:「ランバグラン – 自動プログラム修復の実行可能なデータセット」

要約:

– 自動プログラム修復(APR)は、最近では深層ニューラルネットワークによるデータ駆動技術への移行が見られる。これには、数十万、または数百万の実行不可能なコード断片のトレーニングが含まれる。
– 実行可能なコードの実行は、テストベースの修正候補の評価や修復を支援するための貴重な情報を提供できるため、NPR(ニューラルプログラムリペア)でしばしば無視されるコードの側面に注意を引きたいと思います。
– 本研究では、8つの異なるプログラミング言語で書かれた、プログラムコンペティションサイトに提出された450,000個の小さなバグ修正済みプログラムのペアの完全に実行可能なデータセットを提供します。
– データセットに加えて、プログラムをコンパイル、安全に実行し、テストするためのインフラストラクチャと微細なバグタイプラベルを提供します。
– このデータセットを使用して、以下の目標を追求します。NPRを完全に静的なコード表現を超えたものにし、実行ベースの機能の使用を促進し、多様な言語を含めることにより、APRのデータセットやベンチマークでJavaの優勢性を相殺することです。
– 2つの基準の基本的な評価結果について参照点を提供します。1つは生成および検証アプローチに基づき、もう1つは深層学習に基づいています。

要約(オリジナル)

Recently, we can notice a transition to data-driven techniques in Automated Program Repair (APR), in particular towards deep neural networks. This entails training on hundreds of thousands or even millions of non-executable code fragments. We would like to bring more attention to an aspect of code often neglected in Neural Program Repair (NPR), namely its execution. Code execution has several significant advantages. It allows for test-based evaluation of candidate fixes and can provide valuable information to aid repair. In this work we present a fully executable dataset of 450,000 small buggy/fixed program pairs originally submitted to programming competition websites written in eight different programming languages. Along with the dataset we provide infrastructure to compile, safely execute and test programs as well as fine-grained bug-type labels. To give a point of reference, we provide basic evaluation results for two baselines, one based on a generate-and-validate approach and one on deep learning. With this dataset we follow several goals: we want to lift Neural Program Repair beyond fully static code representations, foster the use of execution-based features and, by including several different languages, counterbalance the predominance of Java in the current landscape of APR datasets and benchmarks.

arxiv情報

著者 Julian Aron Prenner,Romain Robbes
発行日 2023-04-03 16:02:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.SE パーマリンク