Unlearning Trojans in Large Language Models: A Comparison Between Natural Language and Source Code

要約

この研究では、従来の自然言語の大規模言語モデル (Text-LLM) およびコードの大規模言語モデル (Code-LLM) に埋め込まれたトロイの木馬の影響を軽減するための機械学習解除 (MU) のアプリケーションを調査します。新しい非学習アプローチである LYA を提案します。
これは、フィッシャー情報マトリックス (FIM) ベースの正則化手法である勾配上昇と弾性重み統合の両方を利用して、汚染されたモデルからトロイの木馬を解放します。
LYA の有効性を、微調整、再トレーニング、バニラ勾配上昇などの従来の手法と比較します。
私たちが調査する対象モデルは、それぞれ感情分析タスクとコード欠陥検出タスク用の BERT と CodeBERT です。
私たちの調査結果は、LYA で行われる勾配上昇と FIM ベースの正則化の組み合わせが、元の機能を維持しながら、毒されたモデルからトロイの木馬の影響を除去する点で既存の方法よりも優れていることを示しています。
私たちの知る限り、これは NL およびコーディング ドメインにおける LLM のトロイの木馬の MU を比較対照した最初の研究です。

要約(オリジナル)

This work investigates the application of Machine Unlearning (MU) for mitigating the impact of trojans embedded in conventional large language models of natural language (Text-LLMs) and large language models of code (Code-LLMs) We propose a novel unlearning approach, LYA, that leverages both gradient ascent and elastic weight consolidation, a Fisher Information Matrix (FIM) based regularization technique, to unlearn trojans from poisoned models. We compare the effectiveness of LYA against conventional techniques like fine-tuning, retraining, and vanilla gradient ascent. The subject models we investigate are BERT and CodeBERT, for sentiment analysis and code defect detection tasks, respectively. Our findings demonstrate that the combination of gradient ascent and FIM-based regularization, as done in LYA, outperforms existing methods in removing the trojan’s influence from the poisoned model, while preserving its original functionality. To the best of our knowledge, this is the first work that compares and contrasts MU of trojans in LLMs, in the NL and Coding domain.

arxiv情報

著者 Mahdi Kazemi,Aftab Hussain,Md Rafiqul Islam Rabin,Mohammad Amin Alipour,Sen Lin
発行日 2024-08-22 14:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク