要約
デバッグはソフトウェア開発の重要な側面ですが、大規模言語モデル (LLM) のデバッグ機能はほとんど解明されていないままです。
このペーパーでは、最初に、LLM のデバッグ機能を評価するために設計された包括的なベンチマークである DEBUGEVAL について紹介します。
DEBUGEVAL は、既存の高品質のデータセットからデータを収集し、バグのローカリゼーション、バグの特定、コード レビュー、コード修復を含む 4 つの異なるタスクを設計してデバッグの有効性を評価します。
さらに、LLM のコード デバッグ能力を強化するために、この論文では、教師あり微調整用の洗練されたコード デバッグ データを生成する CoMmunicative Agent BaSed DaTa REfinement FRamework (MASTER) を提案します。
具体的には、MASTER は Code Quizzer を使用して、DEBUGEVAL の定義されたタスクに従って洗練されたデータを生成します。
次に、コード学習者は批評家として機能し、生成された解決できない問題を留保します。
最後に、コード ティーチャーは、生成された問題に対処するための詳細な思考連鎖ベースのソリューションを提供します。
合成データを収集し、コード学習器を微調整してデバッグ能力を強化し、NeuDebugger モデルを実行します。
私たちの実験では、DEBUGEVAL のゼロショット設定でさまざまな LLM と NeuDebugger を評価しました。
実験結果は、これらの 7B スケール LLM は、コード指向の LLM であっても、デバッグ機能が弱いことを示しています。
逆に、これらの大型モデル (70B 以上) は、説得力のあるデバッグ能力を示します。
さらなる分析により、MASTER は教師ありファインチューニング (SFT) LLM 用のデータを合成することでコードのデバッグ能力を強化する効果的な方法であることが示されています。
要約(オリジナル)
Debugging is a vital aspect of software development, yet the debugging capabilities of Large Language Models (LLMs) remain largely unexplored. This paper first introduces DEBUGEVAL, a comprehensive benchmark designed to evaluate the debugging capabilities of LLMs. DEBUGEVAL collects data from existing high-quality datasets and designs four different tasks to evaluate the debugging effectiveness, including BUG Localization, BUG Identification, Code Review, and Code Repair. Additionally, to enhance the code debugging ability of LLMs, this paper proposes a CoMmunicative Agent BaSed DaTa REfinement FRamework (MASTER), which generates the refined code debugging data for supervised finetuning. Specifically, MASTER employs the Code Quizzer to generate refined data according to the defined tasks of DEBUGEVAL. Then the Code Learner acts as a critic and reserves the generated problems that it can not solve. Finally, the Code Teacher provides a detailed Chain-of-Thought based solution to deal with the generated problem. We collect the synthesized data and finetune the Code Learner to enhance the debugging ability and conduct the NeuDebugger model. Our experiments evaluate various LLMs and NeuDebugger in the zero-shot setting on DEBUGEVAL. Experimental results demonstrate that these 7B-scale LLMs have weaker debugging capabilities, even these code-oriented LLMs. On the contrary, these larger models (over 70B) show convincing debugging ability. Our further analyses illustrate that MASTER is an effective method to enhance the code debugging ability by synthesizing data for Supervised Fine-Tuning (SFT) LLMs.
arxiv情報
著者 | Weiqing Yang,Hanbin Wang,Zhenghao Liu,Xinze Li,Yukun Yan,Shuo Wang,Yu Gu,Minghe Yu,Zhiyuan Liu,Ge Yu |
発行日 | 2024-08-09 11:35:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google