ReLearn: Unlearning via Learning for Large Language Models

要約

大規模な言語モデルの現在の学習方法は、通常、ターゲットトークンの確率を減らすために逆の最適化に依存しています。
ただし、このパラダイムは、その後のトークン予測、モデルのパフォーマンスの分解、言語の一貫性を破壊します。
さらに、既存の評価メトリックは、応答の流encyさと関連性を不適切に評価しながら、コンテキストの忘却を過度に強調します。
これらの課題に対処するために、包括的な評価フレームワークとともに、効果的な学習のためのデータ増強と微調整パイプラインである再学習を提案します。
このフレームワークでは、知識レベルの保存を測定するための知識忘却率（KFR）と知識保持率（KRR）、および生成品質を評価するための言語スコア（LS）を測定します。
私たちの実験では、Learnが高品質の出力を維持しながらターゲットを絞った忘却を成功裏に達成することが示されています。
メカニズム分析を通じて、逆最適化がコヒーレントテキスト生成をどのように混乱させるかをさらに実証し、再学習がこの重要な能力を保持します。
コードはhttps://github.com/zjunlp/unlearnで入手できます。

要約(オリジナル)

Current unlearning methods for large language models usually rely on reverse optimization to reduce target token probabilities. However, this paradigm disrupts the subsequent tokens prediction, degrading model performance and linguistic coherence. Moreover, existing evaluation metrics overemphasize contextual forgetting while inadequately assessing response fluency and relevance. To address these challenges, we propose ReLearn, a data augmentation and fine-tuning pipeline for effective unlearning, along with a comprehensive evaluation framework. This framework introduces Knowledge Forgetting Rate (KFR) and Knowledge Retention Rate (KRR) to measure knowledge-level preservation, and Linguistic Score (LS) to evaluate generation quality. Our experiments show that ReLearn successfully achieves targeted forgetting while preserving high-quality output. Through mechanistic analysis, we further demonstrate how reverse optimization disrupts coherent text generation, while ReLearn preserves this essential capability. Code is available at https://github.com/zjunlp/unlearn.

arxiv情報

著者	Haoming Xu,Ningyuan Zhao,Liming Yang,Sendong Zhao,Shumin Deng,Mengru Wang,Bryan Hooi,Nay Oo,Huajun Chen,Ningyu Zhang
発行日	2025-03-20 17:20:55+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

ReLearn: Unlearning via Learning for Large Language Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー