Rethinking LLM Memorization through the Lens of Adversarial Compression

要約

Web スケールのデータセットでトレーニングされた大規模言語モデル (LLM) は、許容されるデータ使用量に関して大きな懸念を引き起こします。
大きな疑問の 1 つは、これらのモデルがすべてのトレーニング データを「記憶」するのか、それとも人間が情報を学習して合成する方法に近い方法で多くのデータ ソースを統合するのかということです。
その答えは、暗記をどのように定義するかに大きく左右されます。
この研究では、LLM の記憶を評価するための指標として敵対的圧縮率 (ACR) を提案します。
トレーニング データからの特定の文字列は、その文字列自体より (はるかに) 短いプロンプトによって引き出すことができる場合、つまり、より少ないトークンの敵対的なプロンプトを計算することで、これらの文字列をモデルで「圧縮」できる場合、記憶されていると見なされます。

ACR は、(i) 暗記の測定、特に未学習とコンプライアンスの監視について敵対的な視点を提供することによって、暗記に関する既存の概念の限界を克服します。
(ii) 適度に低い計算量で任意の文字列の記憶を測定する柔軟性を可能にします。
私たちの定義は、モデル所有者がデータ使用に関する条件に違反している可能性がある場合を判断するための実用的なツールとして機能し、潜在的な法的ツールとそのようなシナリオに対処するための重要なレンズを提供します。

要約(オリジナル)

Large language models (LLMs) trained on web-scale datasets raise substantial concerns regarding permissible data usage. One major question is whether these models ‘memorize’ all their training data or they integrate many data sources in some way more akin to how a human would learn and synthesize information. The answer hinges, to a large degree, on how we define memorization. In this work, we propose the Adversarial Compression Ratio (ACR) as a metric for assessing memorization in LLMs. A given string from the training data is considered memorized if it can be elicited by a prompt (much) shorter than the string itself — in other words, if these strings can be ‘compressed’ with the model by computing adversarial prompts of fewer tokens. The ACR overcomes the limitations of existing notions of memorization by (i) offering an adversarial view of measuring memorization, especially for monitoring unlearning and compliance; and (ii) allowing for the flexibility to measure memorization for arbitrary strings at a reasonably low compute. Our definition serves as a practical tool for determining when model owners may be violating terms around data usage, providing a potential legal tool and a critical lens through which to address such scenarios.

arxiv情報

著者 Avi Schwarzschild,Zhili Feng,Pratyush Maini,Zachary C. Lipton,J. Zico Kolter
発行日 2024-07-01 14:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク