要約
Machine Ulearningは、訓練されたモデルから特定のデータポイントから学んだ知識を削除するタスクに関係しています。
大規模な言語モデル(LLMS)のコンテキストでは、特にプライバシー目的のためにモデルから指定されたエンティティに関する知識を削除するために、最近、学習が注目を集めています。
未学習の問題に対処するためにさまざまなアプローチが提案されていますが、既存のアプローチのほとんどは、すべてのデータポイントを均等に扱うように扱います。つまり、モントリオールがカナダの都市であることを学習することは、この論文の最初の著者の電話番号を学ぶこととまったく同じ扱いになっています。
この作業では、このすべてのデータが等しい仮定がLLMの学習には当てはまらないことを示しています。
私たちは、学習の成功が、モデルのトレーニング前のデータで学習したい知識の頻度にどのように依存し、頻度が学習を強く影響することを発見する方法を調べます。
さらに、確率と生成に基づく評価の不整合の不整合を明らかにし、モデルが大きくなるにつれてこの問題が悪化することを示します。
全体として、私たちの実験は、モデルのトレーニングデータを考慮に入れるためのLLM学習のためのより良い評価慣行と新しい方法の必要性を強調しています。
要約(オリジナル)
Machine unlearning is concerned with the task of removing knowledge learned from particular data points from a trained model. In the context of large language models (LLMs), unlearning has recently received increased attention, particularly for removing knowledge about named entities from models for privacy purposes. While various approaches have been proposed to address the unlearning problem, most existing approaches treat all data points to be unlearned equally, i.e., unlearning that Montreal is a city in Canada is treated exactly the same as unlearning the phone number of the first author of this paper. In this work, we show that this all data is equal assumption does not hold for LLM unlearning. We study how the success of unlearning depends on the frequency of the knowledge we want to unlearn in the pre-training data of a model and find that frequency strongly affects unlearning, i.e., more frequent knowledge is harder to unlearn. Additionally, we uncover a misalignment between probability and generation-based evaluations of unlearning and show that this problem worsens as models become larger. Overall, our experiments highlight the need for better evaluation practices and novel methods for LLM unlearning that take the training data of models into account.
arxiv情報
著者 | Aravind Krishnan,Siva Reddy,Marius Mosbach |
発行日 | 2025-04-24 13:16:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google