Model Editing for LLMs4Code: How Far are We?

要約

大規模コード言語モデル(Large Language Models for Code: LLMs4Code)は、ソフトウェアエンジニアリングの領域で卓越した性能、特にコーディングタスクで顕著な性能を示すことが分かっている。しかし、最も先進的なLLMs4Codeであっても、コードの知識が不正確であったり、古かったりすることは避けられません。LLMs4Codeのトレーニングには高いコストがかかるため、このような問題のあるコード知識を修正するためにモデルを再トレーニングすることは現実的ではありません。モデル編集は、LLMの誤った知識を効果的かつ効率的に修正するための新しい技術分野であり、最近様々なモデル編集技術やベンチマークが提案されている。にもかかわらず、LLMs4Code内の知識を様々なコード関連タスクに適応させるための最先端のモデル編集技術の性能を徹底的に比較・分析する包括的な研究は、特に存在しない。このギャップを埋めるために、我々は、LLMs4Codeの不正確さを修復するために、最先端のモデル編集アプローチを適用する最初の体系的な研究を行う。このベンチマークは、21K以上のコード生成サンプルを含むCoNaLa-Edit (CNLE)と16K以上のコード要約サンプルを含むCodeSearchNet-Edit (CSNE)の2つのデータセットから構成される。CLMEEvalの助けを借りて、6つの高度なモデル編集技術を3つのLLMs4Codeで評価する:CodeLlama(7B)、CodeQwen1.5(7B)、Stable-Code(3B)である。その結果、外部記憶ベースのGRACEアプローチは、知識編集の有効性と特異性(編集がターゲット外の知識に影響を与えない)で最も優れている一方、汎化性(編集が他の意味的に同一な入力に汎化できるか)は既存の手法の普遍的な課題であることが分かった。さらに、綿密な事例分析に基づき、入力の意味性をより良く捉えるために対照学習を取り入れた、A-GRACEと呼ばれるGRACEの拡張版を紹介する。

要約(オリジナル)

Large Language Models for Code (LLMs4Code) have been found to exhibit outstanding performance in the software engineering domain, especially the remarkable performance in coding tasks. However, even the most advanced LLMs4Code can inevitably contain incorrect or outdated code knowledge. Due to the high cost of training LLMs4Code, it is impractical to re-train the models for fixing these problematic code knowledge. Model editing is a new technical field for effectively and efficiently correcting erroneous knowledge in LLMs, where various model editing techniques and benchmarks have been proposed recently. Despite that, a comprehensive study that thoroughly compares and analyzes the performance of the state-of-the-art model editing techniques for adapting the knowledge within LLMs4Code across various code-related tasks is notably absent. To bridge this gap, we perform the first systematic study on applying state-of-the-art model editing approaches to repair the inaccuracy of LLMs4Code. To that end, we introduce a benchmark named CLMEEval, which consists of two datasets, i.e., CoNaLa-Edit (CNLE) with 21K+ code generation samples and CodeSearchNet-Edit (CSNE) with 16K+ code summarization samples. With the help of CLMEEval, we evaluate six advanced model editing techniques on three LLMs4Code: CodeLlama (7B), CodeQwen1.5 (7B), and Stable-Code (3B). Our findings include that the external memorization-based GRACE approach achieves the best knowledge editing effectiveness and specificity (the editing does not influence untargeted knowledge), while generalization (whether the editing can generalize to other semantically-identical inputs) is a universal challenge for existing techniques. Furthermore, building on in-depth case analysis, we introduce an enhanced version of GRACE called A-GRACE, which incorporates contrastive learning to better capture the semantics of the inputs.

arxiv情報

著者 Xiaopeng Li,Shangwen Wang,Shasha Li,Jun Ma,Jie Yu,Xiaodong Liu,Jing Wang,Bin Ji,Weimin Zhang
発行日 2024-12-03 07:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SE パーマリンク