Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs

要約

大規模言語モデル (LLM) は、有害な言語を生成したり、危険な知識の悪意のある使用を促進したりするなど、社会的および倫理的リスクを引き起こすことがわかっています。
機械のアンラーニングは、有害な動作や知識を直接削除することで LLM の安全性を向上させる有望なアプローチです。
この論文では、あらゆるアンラーニング手法と併用してその効果を高めることができるフレームワーク「SPlit, UNlearn, MerGE」(SPUNGE)を提案します。
SPUNGE は、特定の属性値に基づいて未学習データをサブセットに分割し、各サブセットを個別にアンラーニングし、未学習モデルをマージすることにより、アンラーニング中にデータ属性を活用します。
私たちは、SPUNGE が、標準的な学術ベンチマークでの一般的な機能を維持しながら、最先端の LLM での 2 つの最近のアンラーニング手法のパフォーマンスを大幅に向上させることを経験的に示しています。

要約(オリジナル)

Large language models (LLMs) have shown to pose social and ethical risks such as generating toxic language or facilitating malicious use of hazardous knowledge. Machine unlearning is a promising approach to improve LLM safety by directly removing harmful behaviors and knowledge. In this paper, we propose ‘SPlit, UNlearn, MerGE’ (SPUNGE), a framework that can be used with any unlearning method to amplify its effectiveness. SPUNGE leverages data attributes during unlearning by splitting unlearning data into subsets based on specific attribute values, unlearning each subset separately, and merging the unlearned models. We empirically demonstrate that SPUNGE significantly improves the performance of two recent unlearning methods on state-of-the-art LLMs while maintaining their general capabilities on standard academic benchmarks.

arxiv情報

著者 Swanand Ravindra Kadhe,Farhan Ahmed,Dennis Wei,Nathalie Baracaldo,Inkit Padhi
発行日 2024-06-17 17:35:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク