TOFU: A Task of Fictitious Unlearning for LLMs

要約

Web からの大量のデータ コーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的な懸念を引き起こす機密データやプライベート データを記憶および再現する可能性があります。
学習を解除すること、つまりトレーニング データに存在する情報を忘れるようにモデルを調整することにより、トレーニング後に個人データを保護する方法が得られます。
このような非学習にはいくつかの方法が存在しますが、忘れるべきデータが最初から学習されなかった場合と同等のモデルがどの程度得られるかは不明です。
この課題に対処するために、私たちは、脱学習についての理解を深めることを目的としたベンチマークとして、架空の脱学習タスクである TOFU を提示します。
私たちは、それぞれ 20 の質問と回答のペアで構成される 200 の多様な合成著者プロファイルのデータセットと、アンラーニングのターゲットとして機能する忘れセットと呼ばれるこれらのプロファイルのサブセットを提供します。
私たちは、アンラーニングの有効性の全体像を提供するために連携して機能する一連の指標をまとめています。
最後に、既存の非学習アルゴリズムからのベースライン結果のセットを提供します。
重要なのは、私たちが検討しているベースラインはいずれも、モデルがまったく学習されなかったかのように実際に動作するようにモデルを効果的に調整する、非学習のアプローチを開発する継続的な取り組みを動機付ける効果的な非学習を示していないということです。

要約(オリジナル)

Large language models trained on massive corpora of data from the web can memorize and reproduce sensitive or private data raising both legal and ethical concerns. Unlearning, or tuning models to forget information present in their training data, provides us with a way to protect private data after training. Although several methods exist for such unlearning, it is unclear to what extent they result in models equivalent to those where the data to be forgotten was never learned in the first place. To address this challenge, we present TOFU, a Task of Fictitious Unlearning, as a benchmark aimed at helping deepen our understanding of unlearning. We offer a dataset of 200 diverse synthetic author profiles, each consisting of 20 question-answer pairs, and a subset of these profiles called the forget set that serves as the target for unlearning. We compile a suite of metrics that work together to provide a holistic picture of unlearning efficacy. Finally, we provide a set of baseline results from existing unlearning algorithms. Importantly, none of the baselines we consider show effective unlearning motivating continued efforts to develop approaches for unlearning that effectively tune models so that they truly behave as if they were never trained on the forget data at all.

arxiv情報

著者 Pratyush Maini,Zhili Feng,Avi Schwarzschild,Zachary C. Lipton,J. Zico Kolter
発行日 2024-01-11 18:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク