MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts

要約

大規模言語モデル (LLM) は機密情報を記憶する可能性があるため、誤用の可能性が懸念されます。
LLM Unlearning は、トレーニングされた LLM からこの情報を削除する事後アプローチであり、これらのリスクを軽減する有望なソリューションを提供します。
しかし、これまでの実践は、次の 3 つの重要な課題に直面しています。 1. 実用性: 学習解除に成功すると、無関係なタスクで壊滅的な崩壊を引き起こすことがよくあります。
2. 効率: 多くの方法では、同様のサイズのモデルを追加する必要があるため、学習や推論が遅くなるか、取得が困難なデータを保持する必要があります。
3. 堅牢性: たとえ効果的な方法であっても、抽出技術によってデータが漏洩する可能性があります。
これらの課題に対処するために、私たちは、シンプルかつ効果的な勾配降下ベースのアンラーニング手法である MEOW を提案します。
具体的には、オフライン LLM を使用して反転されたファクトのセットを生成します。
次に、LLM での記憶を定量化するための新しい指標 MEMO を設計します。
最後に、MEMO によって提供される信号に基づいて、反転されたファクトの最も適切なセットを選択し、それらに基づいてモデルを微調整します。
私たちは、Llama2-7B-Chat と Phi-1.5B を使用して、一般的に使用される unlearn ベンチマークである ToFU で MEOW を評価し、NLU タスクと NLG タスクの両方でテストします。
結果は、モデルの実用性を大幅に損なうことなく、忘却品質における MEOW の大幅な改善を示しています。
一方、MEOW では NLU または NLG の機能に大きな低下は見られず、NLU のパフォーマンスもわずかに向上しています。

要約(オリジナル)

Large Language Models (LLMs) can memorize sensitive information, raising concerns about potential misuse. LLM Unlearning, a post-hoc approach to remove this information from trained LLMs, offers a promising solution to mitigate these risks. However, previous practices face three key challenges: 1. Utility: successful unlearning often causes catastrophic collapse on unrelated tasks. 2. Efficiency: many methods either involve adding similarly sized models, which slows down unlearning or inference, or require retain data that are difficult to obtain. 3. Robustness: even effective methods may still leak data via extraction techniques. To address these challenges, we propose MEOW, a simple yet effective gradient descent-based unlearning method. Specifically, we use an offline LLM to generate a set of inverted facts. Then, we design a new metric, MEMO, to quantify memorization in LLMs. Finally, based on the signals provided by MEMO, we select the most appropriate set of inverted facts and finetune the model based on them. We evaluate MEOW on the commonly used unlearn benchmark, ToFU, with Llama2-7B-Chat and Phi-1.5B, and test it on both NLU and NLG tasks. Results demonstrate significant improvement of MEOW in forget quality without substantial loss in model utility. Meanwhile, MEOW does not exhibit significant degradation in NLU or NLG capabilities, and there is even a slight improvement in NLU performance.

arxiv情報

著者 Tianle Gu,Kexin Huang,Ruilin Luo,Yuanqi Yao,Yujiu Yang,Yan Teng,Yingchun Wang
発行日 2024-09-18 09:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク