Who’s Harry Potter? Approximate Unlearning in LLMs

要約

大規模言語モデル (LLM) は、多くの場合著作権で保護されたコンテンツを含む大規模なインターネット コーパスでトレーニングされます。
これは、これらのモデルの開発者とユーザー、さらには元の著者と出版社に法的および倫理的な課題をもたらします。
この論文では、最初から再トレーニングすることなく、LLM からトレーニング データのサブセットを学習解除するための新しい手法を提案します。
私たちは、Llama2-7b モデル (最近 Meta によってオープンソース化された生成言語モデル) からハリー ポッターの本を学習から解放するというタスクに関する技術を評価します。
モデルの事前トレーニングには 184,000 GPU 時間以上かかりましたが、約 1 GPU 時間の微調整で、一般的なベンチマーク (Winogrande、
Hellaswag、arc、boolq、piqa) はほとんど影響を受けません。
コミュニティでの評価のために、微調整されたモデルを HuggingFace で公開します。
私たちの知る限り、これは生成言語モデルにおける非学習のための効果的な手法を提示した最初の論文です。
私たちの手法は 3 つの主要なコンポーネントで構成されています。 まず、ターゲット データでさらにトレーニングされた強化モデルを使用して、そのロジットをベースライン モデルのロジットと比較することによって、未学習ターゲットに最も関連するトークンを特定します。
次に、ターゲット データ内の特異な式を一般的な対応する式に置き換え、モデル独自の予測を利用してすべてのトークンの代替ラベルを生成します。
これらのラベルは、ターゲット データでトレーニングされていないモデルの次のトークンの予測を近似することを目的としています。
3 番目に、これらの代替ラベルに基づいてモデルを微調整します。これにより、コンテキストのプロンプトが表示されるたびに、モデルのメモリから元のテキストが効果的に消去されます。

要約(オリジナル)

Large language models (LLMs) are trained on massive internet corpora that often contain copyrighted content. This poses legal and ethical challenges for the developers and users of these models, as well as the original authors and publishers. In this paper, we propose a novel technique for unlearning a subset of the training data from a LLM, without having to retrain it from scratch. We evaluate our technique on the task of unlearning the Harry Potter books from the Llama2-7b model (a generative language model recently open-sourced by Meta). While the model took over 184K GPU-hours to pretrain, we show that in about 1 GPU hour of finetuning, we effectively erase the model’s ability to generate or recall Harry Potter-related content, while its performance on common benchmarks (such as Winogrande, Hellaswag, arc, boolq and piqa) remains almost unaffected. We make our fine-tuned model publicly available on HuggingFace for community evaluation. To the best of our knowledge, this is the first paper to present an effective technique for unlearning in generative language models. Our technique consists of three main components: First, we use a reinforced model that is further trained on the target data to identify the tokens that are most related to the unlearning target, by comparing its logits with those of a baseline model. Second, we replace idiosyncratic expressions in the target data with generic counterparts, and leverage the model’s own predictions to generate alternative labels for every token. These labels aim to approximate the next-token predictions of a model that has not been trained on the target data. Third, we finetune the model on these alternative labels, which effectively erases the original text from the model’s memory whenever it is prompted with its context.

arxiv情報

著者 Ronen Eldan,Mark Russinovich
発行日 2023-10-04 05:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク