IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models

要約

大規模な言語モデル(LLMS)の印象的な偉業について聞くことなく、一日が過ぎず、同様に、彼らの課題を聞かずに一日が過ぎません。
LLMは、データセットのバイアスに対して脆弱であることで有名であり、毒性などの問題につながります。
これらの問題を軽減するためにドメイン適応トレーニングが採用されていますが、これらの手法は、修復プロセス中にすべてのモデルパラメーターに無差別に対処することが多く、修復の質が低く、モデルの汎用性が低下します。
この論文では、新しい動的スライシングベースの意図を覚めるLLM修復戦略、Irepairを紹介します。
このアプローチは、修理のためにモデルの最もエラーが発生しやすいセクションを選択的にターゲットにしています。
具体的には、すぐに注意を払う必要があるモデルの最も敏感なレイヤーを動的にスライスすることを提案し、それらの分野に修理努力を集中させます。
この方法により、モデルのごく一部を変更することにより、モデルの全体的なパフォーマンスへの影響が潜在的に低下する可能性が低く、より効果的な修理が可能になります。
毒性緩和セットアップでは、800mから1.6bの範囲のパラメーターを使用して、GPT2およびGPT-NEOファミリーの3つのモデルで手法を評価しました。
我々の結果は、Irepairの修復エラーが43.6%効果的にエラーを修復し、最も近いベースラインである直接優先最適化と比較して、一般的なパフォーマンスの破壊が46%少ないことを示しています。
私たちの経験的分析では、モデルの小さなセクションでエラーがより集中していることが明らかになり、レイヤーの上位20%が残りの80 \%よりも773%のエラー密度を示しています。
これは、選択的修復の必要性を強調しています。
さらに、モデル全体に​​分散したエラーに対処し、堅牢で効率的な修復を確保するために、動的選択アプローチが不可欠であることを実証します。

要約(オリジナル)

Not a day goes by without hearing about the impressive feats of large language models (LLMs), and equally, not a day passes without hearing about their challenges. LLMs are notoriously vulnerable to biases in their dataset, leading to issues such as toxicity. While domain-adaptive training has been employed to mitigate these issues, these techniques often address all model parameters indiscriminately during the repair process, resulting in poor repair quality and reduced model versatility. In this paper, we introduce a novel dynamic slicing-based intent-aware LLM repair strategy, IRepair. This approach selectively targets the most error-prone sections of the model for repair. Specifically, we propose dynamically slicing the model’s most sensitive layers that require immediate attention, concentrating repair efforts on those areas. This method enables more effective repairs with potentially less impact on the model’s overall performance by altering a smaller portion of the model. We evaluated our technique on three models from the GPT2 and GPT-Neo families, with parameters ranging from 800M to 1.6B, in a toxicity mitigation setup. Our results show that IRepair repairs errors 43.6% more effectively while causing 46% less disruption to general performance compared to the closest baseline, direct preference optimization. Our empirical analysis also reveals that errors are more concentrated in a smaller section of the model, with the top 20% of layers exhibiting 773% more error density than the remaining 80\%. This highlights the need for selective repair. Additionally, we demonstrate that a dynamic selection approach is essential for addressing errors dispersed throughout the model, ensuring a robust and efficient repair.

arxiv情報

著者 Sayem Mohammad Imtiaz,Astha Singh,Fraol Batole,Hridesh Rajan
発行日 2025-03-11 17:08:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク