Not All Tokens Are Meant to Be Forgotten

要約

大規模言語モデル(LLM)は、膨大なテキストコーパスで事前に訓練され、人間レベルの言語理解、推論、意思決定能力を発揮する。しかし、LLMは個人情報や著作権で保護されたコンテンツなど、不要な情報を記憶してしまう傾向があり、プライバシーや法律上の重大な問題を引き起こしている。非学習は有望な解決策として浮上しているが、既存の方法は過剰忘却という重大な課題に直面している。この問題は、忘却サンプルに含まれる全てのトークンの生成を無差別に抑制するため、モデルの実用性が大幅に損なわれることに起因する。この課題を克服するために、我々は、(1)忘却サンプル中の不要語(UW)と一般語(GW)を区別するように設計された柔軟なターゲット情報識別器と、(2)UWに関連する不要情報を学習解除するためのロジット選好損失と、GW中の一般情報を保持するための保存損失を活用する新しいターゲット選好最適化アプローチから構成される、ターゲット情報忘却(TIF)フレームワークを導入する。TOFUとMUSEベンチマークを用いた広範な実験により、提案するTIFフレームワークが、モデルの有用性を維持しながら学習解除の有効性を高め、最先端の結果を達成することを実証する。

要約(オリジナル)

Large Language Models (LLMs), pre-trained on massive text corpora, exhibit remarkable human-level language understanding, reasoning, and decision-making abilities. However, they tend to memorize unwanted information, such as private or copyrighted content, raising significant privacy and legal concerns. Unlearning has emerged as a promising solution, but existing methods face a significant challenge of over-forgetting. This issue arises because they indiscriminately suppress the generation of all the tokens in forget samples, leading to a substantial loss of model utility. To overcome this challenge, we introduce the Targeted Information Forgetting (TIF) framework, which consists of (1) a flexible targeted information identifier designed to differentiate between unwanted words (UW) and general words (GW) in the forget samples, and (2) a novel Targeted Preference Optimization approach that leverages Logit Preference Loss to unlearn unwanted information associated with UW and Preservation Loss to retain general information in GW, effectively improving the unlearning process while mitigating utility degradation. Extensive experiments on the TOFU and MUSE benchmarks demonstrate that the proposed TIF framework enhances unlearning effectiveness while preserving model utility and achieving state-of-the-art results.

arxiv情報

著者 Xiangyu Zhou,Yao Qiang,Saleh Zare Zade,Douglas Zytko,Prashant Khanduri,Dongxiao Zhu
発行日 2025-06-03 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク