Rethinking LLM Memorization through the Lens of Adversarial Compression

要約

Web スケールのデータセットでトレーニングされた大規模言語モデル (LLM) は、許容されるデータ使用量に関して大きな懸念を引き起こします。
大きな疑問の 1 つは、これらのモデルがすべてのトレーニング データを「記憶」するのか、それとも人間が情報を学習して合成する方法に近い方法で多くのデータ ソースを統合するのかということです。
答えは、$\textit{暗記をどのように定義するか}$ に大きく依存します。
この研究では、LLM の記憶を評価するための指標として、敵対的圧縮率 (ACR) を提案します。訓練データからの特定の文字列は、文字列自体よりも短いプロンプトによって引き出すことができる場合、記憶されていると見なされます。
言い換えれば、これらの文字列は、より少ないトークンの敵対的プロンプトを計算することによってモデルで「圧縮」できます。
我々は、暗記に関する既存の概念の限界を概説し、ACR がこれらの課題をどのように克服するかを示します。(i) 特に未学習とコンプライアンスを監視するために、暗記の測定に敵対的な視点を提供する。
(ii) 適度に低い計算量で任意の文字列の記憶を測定する柔軟性を可能にします。
私たちの定義は、モデル所有者がデータ使用に関する条件に違反している可能性がある場合を判断するための貴重かつ実用的なツールとして機能し、潜在的な法的ツールとそのようなシナリオに対処するための重要なレンズを提供します。
プロジェクトページ: https://locuslab.github.io/acr-memorization。

要約(オリジナル)

Large language models (LLMs) trained on web-scale datasets raise substantial concerns regarding permissible data usage. One major question is whether these models ‘memorize’ all their training data or they integrate many data sources in some way more akin to how a human would learn and synthesize information. The answer hinges, to a large degree, on $\textit{how we define memorization}$. In this work, we propose the Adversarial Compression Ratio (ACR) as a metric for assessing memorization in LLMs — a given string from the training data is considered memorized if it can be elicited by a prompt shorter than the string itself. In other words, these strings can be ‘compressed’ with the model by computing adversarial prompts of fewer tokens. We outline the limitations of existing notions of memorization and show how the ACR overcomes these challenges by (i) offering an adversarial view to measuring memorization, especially for monitoring unlearning and compliance; and (ii) allowing for the flexibility to measure memorization for arbitrary strings at a reasonably low compute. Our definition serves as a valuable and practical tool for determining when model owners may be violating terms around data usage, providing a potential legal tool and a critical lens through which to address such scenarios. Project page: https://locuslab.github.io/acr-memorization.

arxiv情報

著者 Avi Schwarzschild,Zhili Feng,Pratyush Maini,Zachary C. Lipton,J. Zico Kolter
発行日 2024-04-23 15:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク