要約
大規模言語モデル (LLM) は、トレーニング セットのテキスト シーケンスの一部を逐語的に記憶して暗唱することが判明しており、LLM を使用する際のプライバシーと著作権の問題について幅広い懸念が生じています。
この Textual Sequence Memorization (TSM) 現象により、LLM 出力を調整して、ユーザーの要件を満たす特定の記憶テキストが生成されないようにするという高い要求が生じます。
しかし、私たちの実証研究では、既存のTSM消去方法では、モデルの有用性を実質的に損なうことなく、大量の記憶されたサンプルを忘れることができないことが明らかになりました。
TSM 消去の有効性と LLM におけるモデルの有用性の間のより良いトレードオフを達成するために、私たちの論文では、選択的最適化によるエントロピー最大化 (EMSO) に基づく新しいフレームワークを提案します。このフレームワークでは、更新された重みは、何も使用せずに新しい対照的な勾配メトリックを使用して選択されます。
追加のモデルまたはデータの参加。
私たちの分析は、エントロピー最大化損失を使用したトレーニングの方が、既存の方法よりも最適化プロセスがより安定しており、モデルの有用性をよりよく維持できることを示しています。
コントラスト勾配メトリックは、勾配の大きさと方向の両方を考慮して、TSM 消去に最も影響力のある重みを特定します。
3 つのモデル スケールにわたる広範な実験により、私たちの方法が言語生成と推論におけるモデルの能力を維持しながら、大規模な忘却リクエストの処理に優れていることが実証されました。
要約(オリジナル)
Large Language Models (LLMs) have been found to memorize and recite some of the textual sequences from their training set verbatim, raising broad concerns about privacy and copyright issues when using LLMs. This Textual Sequence Memorization (TSM) phenomenon leads to a high demand to regulate LLM output to prevent it from generating certain memorized text to meet user requirements. However, our empirical study reveals that existing methods for TSM erasure fail to forget massive memorized samples without substantially jeopardizing the model utility. To achieve a better trade-off between the effectiveness of TSM erasure and model utility in LLMs, our paper proposes a new framework based on Entropy Maximization with Selective Optimization (EMSO), where the updated weights are chosen with a novel contrastive gradient metric without any participation of additional model or data. Our analysis shows that training with the entropy maximization loss has a more stable optimization process and better keeps model utility than existing methods. The contrastive gradient metric localizes the most influential weight for TSM erasure by taking both the gradient magnitude and direction into consideration. Extensive experiments across three model scales demonstrate that our method excels in handling large-scale forgetting requests while preserving model ability in language generation and reasoning.
arxiv情報
著者 | Zhaohan Zhang,Ziquan Liu,Ioannis Patras |
発行日 | 2024-08-09 10:26:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google