要約
このホワイトペーパーでは、Libu(Loraが強化された影響ベースの解除)について説明します。これは、学習のタスクを解決するためのアルゴリズムであり、ゼロから再訓練せずに大規模な言語モデルから特定の知識を削除し、全体的な有用性を損なうことなく削除します(Semeval-2025タスク4:大規模な言語モデルからのデリケートなコンテンツを解き放ちます)。
このアルゴリズムは、Classical \ TextIT {Influnce Functions}を組み合わせて、モデルからのデータの影響を削除し、\ TextIT {Second-Order Optimization}を削除して、ユーティリティ全体を安定させます。
私たちの実験は、この軽量アプローチが、さまざまな種類のタスクでLLMを学習するのに適切に適用できることを示しています。
要約(オリジナル)
This paper describes LIBU (LoRA enhanced influence-based unlearning), an algorithm to solve the task of unlearning – removing specific knowledge from a large language model without retraining from scratch and compromising its overall utility (SemEval-2025 Task 4: Unlearning sensitive content from Large Language Models). The algorithm combines classical \textit{influence functions} to remove the influence of the data from the model and \textit{second-order optimization} to stabilize the overall utility. Our experiments show that this lightweight approach is well applicable for unlearning LLMs in different kinds of task.
arxiv情報
著者 | Aleksey Kudelya,Alexander Shirnin |
発行日 | 2025-06-04 15:10:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google