要約
大規模な言語モデル(LLM)は、大規模なデータセットでのトレーニング中に必然的に有害な情報を取得します。
LLM Unroderningは、モデルの全体的なパフォーマンスを維持しながら、このような有害な情報の影響を排除することを目的としています。
勾配上昇ベースのアプローチに代表される既存の未学習方法は、主にターゲットデータの忘れに焦点を当て、学習の有効性に対する論理的に関連する知識の重要な影響を見落とします。
この論文では、理論的分析と実験的分析の両方を通じて、最初に、最適ではない未学習のパフォーマンスの重要な理由は、モデルが論理的に関連する知識を持って推論を通じてターゲットコンテンツを再構築できることであることを実証します。
この問題に対処するために、パラメーター外挿(UIPE)を介して未学習の改善を提案します。これは、忘却ターゲットと高度に相関する知識を削除する方法です。
実験結果は、uipeが豆腐ベンチマークでのさまざまな主流LLMの解除方法のパフォーマンスを大幅に向上させることを示しています。
要約(オリジナル)
Large Language Models (LLMs) inevitably acquire harmful information during training on massive datasets. LLM unlearning aims to eliminate the influence of such harmful information while maintaining the model’s overall performance. Existing unlearning methods, represented by gradient ascent-based approaches, primarily focus on forgetting target data while overlooking the crucial impact of logically related knowledge on the effectiveness of unlearning. In this paper, through both theoretical and experimental analyses, we first demonstrate that a key reason for the suboptimal unlearning performance is that models can reconstruct the target content through reasoning with logically related knowledge. To address this issue, we propose Unlearning Improvement via Parameter Extrapolation (UIPE), a method that removes knowledge highly correlated with the forgetting targets. Experimental results show that UIPE significantly enhances the performance of various mainstream LLM unlearning methods on the TOFU benchmark.
arxiv情報
著者 | Wenyu Wang,Mengqi Zhang,Xiaotian Ye,Zhaochun Ren,Zhumin Chen,Pengjie Ren |
発行日 | 2025-03-06 18:40:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google