Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

要約

この作業は、モデルのユーティリティを維持しながら、不要なデータの影響(著作権または有害なコンテンツなど)を削除することを目的とした、大規模な言語モデル(LLM)の問題を調査しています。
学習に対する需要の増加にもかかわらず、技術的に接地された最適化フレームワークが不足しています。
グラジエントアセント(GA)タイプのメソッドは、広く使用されていますが、最適化の発散(つまり、事前に訓練された状態からの逸脱)を制御せずに学習プロセスを逆転させ、過剰忘却と潜在的なモデル崩壊のリスクにつながります。
ネガティブな選好最適化(NPO)がこの問題に対処するために提案されており、最先端のLLM学習アプローチの1つと考えられています。
この作業では、NPOを再検討し、別の重要な問題である参照モデルバイアスを特定します。
このバイアスは、NPOの有効性を損なう可能性のある未学習の成功を評価するために、参照モデル(つまり、学習前のモデル)を使用することから生じます。
具体的には、(a)さまざまな難易度レベルを備えた忘れたデータ間での最適化パワーの不均一な割り当て、および(b)学習の解除の初期段階での効果のない勾配重量の平滑化につながります。
これらの課題を克服するために、Simnpoと呼ばれるシンプルで効果的な非学習最適化フレームワークを提案し、参照モデル(単純な選好最適化のレンズを介して)に依存する「単純さ」を削除する際の「単純さ」を示しています。
マルコフチェーンの混合物に基づいた分析を通じて、Simnpoの利点に関するより深い洞察を提供します。
広範な実験では、豆腐やミューズなどのベンチマークでのSimnpoの有効性、および再学習攻撃に対する堅牢性をさらに検証します。
コードはhttps://github.com/optml-group/unlearn-simpleで入手できます。

要約(オリジナル)

This work studies the problem of large language model (LLM) unlearning, aiming to remove unwanted data influences (e.g., copyrighted or harmful content) while preserving model utility. Despite the increasing demand for unlearning, a technically-grounded optimization framework is lacking. Gradient ascent (GA)-type methods, though widely used, are suboptimal as they reverse the learning process without controlling optimization divergence (i.e., deviation from the pre-trained state), leading to risks of over-forgetting and potential model collapse. Negative preference optimization (NPO) has been proposed to address this issue and is considered one of the state-of-the-art LLM unlearning approaches. In this work, we revisit NPO and identify another critical issue: reference model bias. This bias arises from using the reference model (i.e., the model prior to unlearning) to evaluate the unlearning success, which can compromise NPO’s effectiveness. Specifically, it leads to (a) uneven allocation of optimization power across forget data with varying difficulty levels and (b) ineffective gradient weight smoothing during the early stages of unlearning optimization. To overcome these challenges, we propose a simple yet effective unlearning optimization framework, called SimNPO, showing that `simplicity’ in removing the reliance on a reference model (through the lens of simple preference optimization) benefits unlearning. We provide deeper insights into SimNPO’s advantages through an analysis based on mixtures of Markov chains. Extensive experiments further validate SimNPO’s efficacy on benchmarks like TOFU and MUSE, as well as its robustness against relearning attacks. Codes are available at https://github.com/OPTML-Group/Unlearn-Simple.

arxiv情報

著者 Chongyu Fan,Jiancheng Liu,Licong Lin,Jinghan Jia,Ruiqi Zhang,Song Mei,Sijia Liu
発行日 2025-02-07 18:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク