UnStar: Unlearning with Self-Taught Anti-Sample Reasoning for LLMs

要約

機械学習の主要なコンポーネントは、トレーニング用のデータ サンプル、学習パターン用のモデル、精度を最適化するための損失関数です。
同様に、アンラーニングは、アンチデータ サンプル (またはアンチサンプル)、アンラーニング メソッド、および逆損失関数を通じて達成できる可能性があります。
これまでの研究では、アンラーニング手法や損失関数の逆転が検討されてきましたが、アンチサンプルの可能性はほとんど未開発のままです。
このペーパーでは、UnSTAR: 大規模言語モデル (LLM) のための独習アンチサンプル推論によるアンラーニングを紹介します。
私たちの貢献は 3 つあります。
まず、反サンプル誘発非学習という新しい概念を提案します。
2 番目に、誤解を招く根拠を利用してアンチサンプルを生成します。これは、学習された関連付けを逆転させ、非学習プロセスを加速するのに役立ちます。
3 番目に、きめの細かいターゲットを絞ったアンラーニングを可能にし、関連する知識に影響を与えることなく、特定の関連付けを選択的に削除できるようにします。これは、以前の研究では達成できなかったことです。
結果は、アンチサンプルが LLM に効率的で的を絞ったアンラーニング戦略を提供し、プライバシーを保護する機械学習とモデル変更のための新しい道を開くことを示しています。

要約(オリジナル)

The key components of machine learning are data samples for training, model for learning patterns, and loss function for optimizing accuracy. Analogously, unlearning can potentially be achieved through anti-data samples (or anti-samples), unlearning method, and reversed loss function. While prior research has explored unlearning methods and reversed loss functions, the potential of anti-samples remains largely untapped. In this paper, we introduce UnSTAR: Unlearning with Self-Taught Anti-Sample Reasoning for large language models (LLMs). Our contributions are threefold; first, we propose a novel concept of anti-sample-induced unlearning; second, we generate anti-samples by leveraging misleading rationales, which help reverse learned associations and accelerate the unlearning process; and third, we enable fine-grained targeted unlearning, allowing for the selective removal of specific associations without impacting related knowledge – something not achievable by previous works. Results demonstrate that anti-samples offer an efficient, targeted unlearning strategy for LLMs, opening new avenues for privacy-preserving machine learning and model modification.

arxiv情報

著者 Yash Sinha,Murari Mandal,Mohan Kankanhalli
発行日 2024-10-22 14:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク