A Lightweight Method to Disrupt Memorized Sequences in LLM

要約

大規模な言語モデル(LLMS)は、多くのタスクにわたって印象的な能力を示していますが、著作権で保護されたコンテンツの逐語的に再現し、法的および倫理的な懸念を引き起こすリスクがあります。
プライバシーの差やニューロンの編集などの方法は暗記を減らすことができますが、通常、コストのかかる再訓練またはモデルの重量への直接アクセスが必要であり、パフォーマンスを低下させる可能性があります。
これらの課題に対処するために、文法関連のトークンの確率を小さな補助モデル(例:distilgpt-2)から置き換える軽量の事後アプローチであるTokenswapを提案します。
Pythia-6.9BやLlama-3-8Bなどの商用グレードモデルで広範な実験を実施し、下流のタスクにほとんど影響を与えずに、覚えた世代のよく知られた世代の症例を最大10倍効果的に減らすことを実証しています。
私たちのアプローチは、実際のシステムのユーザーにユニークにアクセスしやすく効果的なソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) demonstrate impressive capabilities across many tasks yet risk reproducing copyrighted content verbatim, raising legal and ethical concerns. Although methods like differential privacy or neuron editing can reduce memorization, they typically require costly retraining or direct access to model weights and may degrade performance. To address these challenges, we propose TokenSwap, a lightweight, post-hoc approach that replaces the probabilities of grammar-related tokens with those from a small auxiliary model (e.g., DistilGPT-2). We run extensive experiments on commercial grade models such as Pythia-6.9b and LLaMA-3-8b and demonstrate that our method effectively reduces well-known cases of memorized generation by upto 10x with little to no impact on downstream tasks. Our approach offers a uniquely accessible and effective solution to users of real-world systems.

arxiv情報

著者 Parjanya Prajakta Prashant,Kaustubh Ponkshe,Babak Salimi
発行日 2025-02-07 18:41:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク