要約
言語モデルが拡大するにつれて、パフォーマンスは幅広いタスク全体で劇的に向上しますが、トレーニングデータの一部を逐語的に記憶および逆流させる傾向もあります。
このトレードオフは、特に現実世界の展開において、深刻な法的、倫理的、安全性の懸念をもたらします。
プライバシーの差やモデルの学習などの既存の緩和手法では、多くの場合、内部ウェイトを再訓練またはアクセスする必要があり、ほとんどのユーザーにとって非現実的です。
この作業では、ユーザーがトークンレベルの出力のみにアクセスできる現実的な設定向けに設計された軽量の事後防御であるTokenswapを紹介します。
私たちの重要な洞察は、タスクのパフォーマンスが高いためには大きなモデルが必要ですが、小さなモデル(例えば、蒸留-2)は、流fluentで文法的にもっともらしい確率を共通の関数単語に割り当てるのに十分であることが多いことです。
モデル間でトークンの確率を選択的に交換することにより、Tokenswapは大きなモデルの機能を保存しながら、逐語的な繁殖の傾向を減らします。
Pythia-6.9BおよびLlama-3-8Bの評価は、無視できるタスクの悪化を伴う正確な記憶の10 $ \ Times $のドロップまでに表示されます。
私たちの方法は、展開されたLLMSで記憶された世代を緩和するための実用的でアクセス可能なソリューションを提供します。
要約(オリジナル)
As language models scale, their performance improves dramatically across a wide range of tasks, but so does their tendency to memorize and regurgitate parts of their training data verbatim. This tradeoff poses serious legal, ethical, and safety concerns, especially in real-world deployments. Existing mitigation techniques, such as differential privacy or model unlearning, often require retraining or access to internal weights making them impractical for most users. In this work, we introduce TokenSwap, a lightweight, post-hoc defense designed for realistic settings where the user can only access token-level outputs. Our key insight is that while large models are necessary for high task performance, small models (e.g., DistilGPT-2) are often sufficient to assign fluent, grammatically plausible probabilities to common function words – and crucially, they memorize far less. By selectively swapping token probabilities between models, TokenSwap preserves the capabilities of large models while reducing their propensity for verbatim reproduction. Evaluations on Pythia-6.9B and Llama-3-8B show up to a 10$\times$ drop in exact memorization with negligible task degradation. Our method offers a practical, accessible solution for mitigating memorized generation in deployed LLMs.
arxiv情報
著者 | Parjanya Prajakta Prashant,Kaustubh Ponkshe,Babak Salimi |
発行日 | 2025-05-27 16:54:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google