要約
大規模言語モデル (LLM) はトレーニング データを記憶できることが証明されており、特別に設計されたプロンプトを通じてトレーニング データを抽出できます。
データセットの規模が拡大し続けるにつれて、記憶によって生じるプライバシーのリスクに対する注目が高まっています。
言語モデルの記憶を定量化すると、潜在的なプライバシー リスクを評価するのに役立ちます。
ただし、記憶の定量化に関するこれまでの研究では、正確な元データへのアクセスが必要か、またはかなりの計算オーバーヘッドが発生するため、現実世界の言語モデルへの適用が困難になっていました。
この目的を達成するために、現実世界のシナリオに近い条件と指標を使用して記憶を定量化する、きめ細かいエンティティ レベルの定義を提案します。
さらに、自己回帰言語モデルから機密エンティティを効率的に抽出するアプローチも紹介します。
私たちは、提案された言語モデルに基づいて広範な実験を実施し、さまざまな設定下で機密エンティティを再構築する言語モデルの能力を調査します。
言語モデルはエンティティ レベルで強力に記憶されており、部分的な漏れがあってもトレーニング データを再現できることがわかりました。
この結果は、LLM がトレーニング データを記憶するだけでなく、エンティティ間の関連性も理解していることを示しています。
これらの発見により、LLM のトレーナーはモデルの暗記に関してより慎重になり、プライバシー侵害を防ぐための暗記緩和手法を採用する必要があります。
要約(オリジナル)
Large language models (LLMs) have been proven capable of memorizing their training data, which can be extracted through specifically designed prompts. As the scale of datasets continues to grow, privacy risks arising from memorization have attracted increasing attention. Quantifying language model memorization helps evaluate potential privacy risks. However, prior works on quantifying memorization require access to the precise original data or incur substantial computational overhead, making it difficult for applications in real-world language models. To this end, we propose a fine-grained, entity-level definition to quantify memorization with conditions and metrics closer to real-world scenarios. In addition, we also present an approach for efficiently extracting sensitive entities from autoregressive language models. We conduct extensive experiments based on the proposed, probing language models’ ability to reconstruct sensitive entities under different settings. We find that language models have strong memorization at the entity level and are able to reproduce the training data even with partial leakages. The results demonstrate that LLMs not only memorize their training data but also understand associations between entities. These findings necessitate that trainers of LLMs exercise greater prudence regarding model memorization, adopting memorization mitigation techniques to preclude privacy violations.
arxiv情報
著者 | Zhenhong Zhou,Jiuyang Xiang,Chaomeng Chen,Sen Su |
発行日 | 2023-08-30 03:06:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google