Unmemorization in Large Language Models via Self-Distillation and Deliberate Imagination

要約

大規模言語モデル (LLM) は、多くのタスクにわたって優れた生成機能を発揮しますが、依然としてプライバシー侵害と機密データの望ましくない公開という重大な問題に悩まされています。
これは本質的な疑問を引き起こします。LLM の強力な生成機能と自然言語理解 (NLU) 機能を維持しながら、LLM のそのような望ましくない動作を防ぐにはどうすればよいでしょうか?
この研究では、LLM のアンラーニングの文脈において、意図的な想像力と呼ばれる新しいアプローチを紹介します。
記憶したデータを忘れようとするのではなく、自己蒸留フレームワークを採用し、LLM が別のシナリオを意図的に想像できるように導きます。
幅広い実験で実証されているように、提案された方法は、ターゲットのテキストを効果的に学習解除するだけでなく、オープンエンド生成タスクや NLU タスクでも LLM の機能を維持します。
私たちの結果は、さまざまなモデルやサイズにわたって、またパラメーター効率の高い微調整を伴うこのアプローチの有用性を実証しており、LLM アプリケーションのプライベート データや機密データに関する課題に対処するための新しい経路を提供します。

要約(オリジナル)

While displaying impressive generation capabilities across many tasks, Large Language Models (LLMs) still struggle with crucial issues of privacy violation and unwanted exposure of sensitive data. This raises an essential question: how should we prevent such undesired behavior of LLMs while maintaining their strong generation and natural language understanding (NLU) capabilities? In this work, we introduce a novel approach termed deliberate imagination in the context of LLM unlearning. Instead of trying to forget memorized data, we employ a self-distillation framework, guiding LLMs to deliberately imagine alternative scenarios. As demonstrated in a wide range of experiments, the proposed method not only effectively unlearns targeted text but also preserves the LLMs’ capabilities in open-ended generation tasks as well as in NLU tasks. Our results demonstrate the usefulness of this approach across different models and sizes, and also with parameter-efficient fine-tuning, offering a novel pathway to addressing the challenges with private and sensitive data in LLM applications.

arxiv情報

著者 Yijiang River Dong,Hongzhou Lin,Mikhail Belkin,Ramon Huerta,Ivan Vulić
発行日 2024-02-15 16:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク