Jogging the Memory of Unlearned LLMs Through Targeted Relearning Attack

要約

機械の非学習は、LLM でのトレーニング データの望ましくない記憶を軽減するための有望なアプローチです。
しかし、この研究では、LLM でのアンラーニングに対する既存のアプローチが、驚くほど単純な一連の標的型再学習攻撃の影響を受けやすいことを示します。
小規模で関連性が低い可能性のあるデータ セットのみにアクセスすることで、未学習モデルのメモリを「ジョギング」して、未学習の影響を逆転できることがわかりました。
たとえば、公開されている医学論文を再学習すると、未学習の LLM が生物兵器に関する有害な知識を出力する可能性があり、ハリー ポッターシリーズに関する一般的な Wiki 情報を再学習すると、モデルが逐語的に記憶したテキストを出力する可能性があることを示します。
この非学習-再学習パイプラインを形式化し、3 つの一般的な非学習ベンチマークにわたる攻撃を調査し、調査から得られる将来の方向性とガイドラインについて議論します。

要約(オリジナル)

Machine unlearning is a promising approach to mitigate undesirable memorization of training data in LLMs. However, in this work we show that existing approaches for unlearning in LLMs are surprisingly susceptible to a simple set of targeted relearning attacks. With access to only a small and potentially loosely related set of data, we find that we can ‘jog’ the memory of unlearned models to reverse the effects of unlearning. For example, we show that relearning on public medical articles can lead an unlearned LLM to output harmful knowledge about bioweapons, and relearning general wiki information about the book series Harry Potter can force the model to output verbatim memorized text. We formalize this unlearning-relearning pipeline, explore the attack across three popular unlearning benchmarks, and discuss future directions and guidelines that result from our study.

arxiv情報

著者 Shengyuan Hu,Yiwei Fu,Zhiwei Steven Wu,Virginia Smith
発行日 2024-10-07 17:27:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク