要約
機械の非学習は、大規模言語モデル (LLM) によって取得された不要な知識を削除するために使用されてきました。
この論文では、機械の非学習を最適化の観点から検証し、1 つのタスクが忘却目標を最適化し、別のタスクがモデルのパフォーマンスを最適化する、正則化されたマルチタスクの最適化問題として枠組みします。
特に、正規化勾配差分 (NGDiff) アルゴリズムを導入し、新しい自動学習率スケジューラーを統合しながら、目標間のトレードオフをより適切に制御できるようにします。
私たちは理論的な分析を提供し、安定したトレーニングを示しながら、TOFU および MUSE データセットに対する最先端の非学習手法の中で NGDiff の優れたパフォーマンスを実証します。
要約(オリジナル)
Machine unlearning has been used to remove unwanted knowledge acquired by large language models (LLMs). In this paper, we examine machine unlearning from an optimization perspective, framing it as a regularized multi-task optimization problem, where one task optimizes a forgetting objective and another optimizes the model performance. In particular, we introduce a normalized gradient difference (NGDiff) algorithm, enabling us to have better control over the trade-off between the objectives, while integrating a new, automatic learning rate scheduler. We provide a theoretical analysis and empirically demonstrate the superior performance of NGDiff among state-of-the-art unlearning methods on the TOFU and MUSE datasets while exhibiting stable training.
arxiv情報
著者 | Zhiqi Bu,Xiaomeng Jin,Bhanukiran Vinzamuri,Anil Ramakrishna,Kai-Wei Chang,Volkan Cevher,Mingyi Hong |
発行日 | 2024-10-29 14:41:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google