要約
言語モデル(LMS)は、コード生成のためにソフトウェアエンジニアリングで広く使用されていますが、エラーがあるコードを作成する場合があります。
生成されたコードを修復するのではなく、別の方法は、モデルの根本的な障害に対処することです。
LM修理は、この課題に対する軽量ソリューションを提供します。最小限のデータが必要であり、計算コストを削減し、副作用を減らします。
再訓練とは異なり、LM Repairは、ターゲットニューロンにテーラードアップデートを適用することに焦点を当てており、リソースが限られているシナリオ、高性能需要、または厳格な安全要件に最適です。
この論文では、LLMを修復するための先駆的で新しいセマンティックベースの最適化アプローチである\ ul {s} emantic \ ul {t} argeting for \ ul {a} nalytical \ ul {r} epair(\ textsc {star})を提案します。
\ textSc {star}「バギーニューロン」の検索、「ニューロンパッチ」の解決、「バギーニューロン」のパッチを発するなど、最適化プロセスでLM修復方法の主要な操作を実現します。
それに対応して、最適化を導くための以前の情報として重量マトリックスのデルタを計算します。
標的層と統計的洞察を活用するニューロンを属性にします。
ニューロンパッチは、潜在的な表現をステアリングすることにより、ニューロンのデルタとのロジットへの変更を直接橋渡しする固体セマンティックベースの分析式で計算されます。
LM修復(\ textSc {mint})および最適化方法(\ textsc {sgd})の以前の研究と比較して、\ textsc {star}は、制限を軽減しながら強度を統合します。
\ textSc {star}は、複数の障害の解決をサポートし、有用性を大幅に改善します。
人気のあるコードLMSを使用して3つのコード生成タスクで評価された\ textsc {star}は、優れた効果を示しています。
さらに、\ textsc {star}はより良い効率を示します。
副作用の観点から、つまり、一般化と特異性のバランスは、\ textsc {star}が事前の作業を大幅に上回っています。
要約(オリジナル)
Language Models (LMs) are widely used in software engineering for code generation, but they may produce code with errors. Rather than repairing the generated code, an alternative way is to address the underlying failures of models. LM repair offers a lightweight solution to this challenge: it requires minimal data, reduces computational costs, and reduces the side effects. Unlike retraining, LM repair focuses on applying tailored updates to targeted neurons, making it ideal for scenarios with limited resources, high-performance demands, or strict safety requirements. In this paper, we propose \ul{S}emantic \ul{T}argeting for \ul{A}nalytical \ul{R}epair (\textsc{STAR}), a pioneering and novel semantic-based optimization approach for repairing LLMs. \textsc{STAR} realizes main operations in LM repair methods in an optimization process, including locating “buggy neurons”, solving “neuron patches”, and patching “buggy neurons”. Correspondingly, it computes the deltas of weight matrix as the prior information to guide optimization; and attributes the targeted layers and neurons leveraging statistical insights. The neuron patches are computed with a solid semantic-based analytical formula, which directly bridges the changes to logits with the deltas of neurons, by steering latent representations. Compared to the prior work of LM repair (\textsc{MINT}) and optimization methods (\textsc{SGD}), \textsc{STAR} integrates their strengths while mitigating their limitations. \textsc{STAR} supports solving multiple failures together, significantly improving the usefulness. Evaluated on three code generation tasks using popular code LMs, \textsc{STAR} demonstrates superior effectiveness. Additionally, \textsc{STAR} exhibits better efficiency. In terms of side effects, namely the balance between generalization and specificity, \textsc{STAR} outperforms prior work by a significant margin.
arxiv情報
著者 | Jian Gu,Aldeida Aleti,Chunyang Chen,Hongyu Zhang |
発行日 | 2025-04-14 13:57:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google