要約
コード大規模言語モデル (LLM) は、バグのあるコード スニペットに基づいて正しいコードを直接生成することにより、コードのデバッグにおいて大幅な進歩を遂げました。
プログラミング ベンチマークは、通常、バグのあるコード スニペットとそれに関連するテスト ケースで構成され、LLM のデバッグ機能を評価するために使用されます。
ただし、多くの既存のベンチマークは主に Python に焦点を当てており、言語の多様性の点で制限されていることがよくあります (DebugBench や DebugEval など)。
LLM を使用した多言語デバッグの分野を前進させるために、私たちは、18 のプログラミング言語の 3.6K のテスト サンプルを含み、自動プログラム修復 (APR) タスク、コード レビュー (CR) タスク、および
バグ識別 (BI) タスク。
さらに、正しい多言語クエリとソリューション (xDebugGen) にバグを挿入することにより、デバッグ命令コーパス MDEVAL-INSTRUCT を導入します。
さらに、多言語デバッガ xDebugCoder は、幅広いプログラミング言語のバグ (例: Rust 言語の「Missing Mut」や C 言語の「Misused Macro Definition」など) を処理するための強力なベースラインとして MDEVAL-INSTRUCT でトレーニングされました。
MDEVAL に関する広範な実験により、オープンソース モデルとクローズドソース LLM (GPT や Claude シリーズなど) の間に顕著なパフォーマンスのギャップがあることが明らかになり、多言語コードのデバッグ シナリオに大きな改善の余地があることが浮き彫りになりました。
要約(オリジナル)
Code large language models (LLMs) have made significant progress in code debugging by directly generating the correct code based on the buggy code snippet. Programming benchmarks, typically consisting of buggy code snippet and their associated test cases, are used to assess the debugging capabilities of LLMs. However, many existing benchmarks primarily focus on Python and are often limited in terms of language diversity (e.g., DebugBench and DebugEval). To advance the field of multilingual debugging with LLMs, we propose the first massively multilingual debugging benchmark, which includes 3.6K test samples of 18 programming languages and covers the automated program repair (APR) task, the code review (CR) task, and the bug identification (BI) task. Further, we introduce the debugging instruction corpora MDEVAL-INSTRUCT by injecting bugs into the correct multilingual queries and solutions (xDebugGen). Further, a multilingual debugger xDebugCoder trained on MDEVAL-INSTRUCT as a strong baseline specifically to handle the bugs of a wide range of programming languages (e.g. ‘Missing Mut’ in language Rust and ‘Misused Macro Definition’ in language C). Our extensive experiments on MDEVAL reveal a notable performance gap between open-source models and closed-source LLMs (e.g., GPT and Claude series), highlighting huge room for improvement in multilingual code debugging scenarios.
arxiv情報
著者 | Shukai Liu,Linzheng Chai,Jian Yang,Jiajun Shi,He Zhu,Liran Wang,Ke Jin,Wei Zhang,Hualei Zhu,Shuyue Guo,Tao Sun,Jiaheng Liu,Yunlong Duan,Yu Hao,Liqun Yang,Guanglin Niu,Ge Zhang,Zhoujun Li |
発行日 | 2024-11-04 17:36:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google