要約
近年、大規模言語モデル (LLM) が自然言語処理における新しい研究パラダイムを促進しています。
知識ベースの質問応答や推論における優れた能力にもかかわらず、欠陥のある知識、さらには有害な知識を保持する可能性があるため、悪意のあるアプリケーションのリスクが生じます。
この問題を軽減し、これらのモデルをより純粋なアシスタントに変換するという課題は、モデルを広く適用できるようにするために重要です。
残念ながら、LLM を繰り返し再トレーニングして望ましくない知識を排除することは、パラメーターが膨大であるため非現実的です。
機械のアンラーニングに関する同様の研究から派生したナレッジアンラーニングは、この懸念に対処するための有望な手段を提示しており、LLM のコンテキストでは特に有利です。
これにより、モデル内の無関係な知識に影響を与えることなく、有害な知識を効率的に削除できます。
この目的を達成するために、LLM 時代における知識の未学習に関する調査を提供します。
まず、知識の未学習問題を正式に定義し、関連する作品と区別します。
続いて、既存の知識のアンラーニング手法をパラメータ最適化、パラメータのマージ、およびコンテキスト内学習に基づくものの 3 つのクラスに分類し、これらのアンラーニング手法の詳細を紹介します。
さらに既存の手法で使用されている評価データセットを提示し、最後に現在進行中の課題と将来の方向性を提示してこの調査を締めくくります。
要約(オリジナル)
In recent years, large language models (LLMs) have spurred a new research paradigm in natural language processing. Despite their excellent capability in knowledge-based question answering and reasoning, their potential to retain faulty or even harmful knowledge poses risks of malicious application. The challenge of mitigating this issue and transforming these models into purer assistants is crucial for their widespread applicability. Unfortunately, Retraining LLMs repeatedly to eliminate undesirable knowledge is impractical due to their immense parameters. Knowledge unlearning, derived from analogous studies on machine unlearning, presents a promising avenue to address this concern and is notably advantageous in the context of LLMs. It allows for the removal of harmful knowledge in an efficient manner, without affecting unrelated knowledge in the model. To this end, we provide a survey of knowledge unlearning in the era of LLMs. Firstly, we formally define the knowledge unlearning problem and distinguish it from related works. Subsequently, we categorize existing knowledge unlearning methods into three classes: those based on parameter optimization, parameter merging, and in-context learning, and introduce details of these unlearning methods. We further present evaluation datasets used in existing methods, and finally conclude this survey by presenting the ongoing challenges and future directions.
arxiv情報
著者 | Nianwen Si,Hao Zhang,Heyu Chang,Wenlin Zhang,Dan Qu,Weiqiang Zhang |
発行日 | 2023-11-27 12:37:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google