要約
大規模な言語モデル(LLMS)の台頭により、研究の増加により、悪意のある攻撃の下で個人を特定できる情報(PII)を漏らすリスクが認識されています。
LLMSでPIIを保護するための努力がなされていますが、既存の方法は、プライバシー保護とモデルの有用性の維持のバランスをとるのに苦労しています。
この論文では、認知科学における健忘の研究に触発されたこの論文では、有用性を維持しながらLLMSのPIIを保護するために、新しいアプローチである積極的なプライバシー健忘症(PPA)を提案しています。
このメカニズムは、PIIに最も密接に関連する重要な記憶を順調に特定して忘れて、LLMの機能を維持するために適切な代替メモリを使用して埋め込むメモリが続きます。
一般的なPIIターゲット攻撃に対して、電話番号や物理的な住所などの一般的なPIIを保護するために、複数のモデルで評価を実施し、他の既存の防御技術と比較して、方法の優位性を実証します。
結果は、私たちのPPA法が電話番号への暴露のリスクを100%完全に排除し、物理的な住所暴露のリスクを9.8%から87.6%削減することを示しています。
要約(オリジナル)
With the rise of large language models (LLMs), increasing research has recognized their risk of leaking personally identifiable information (PII) under malicious attacks. Although efforts have been made to protect PII in LLMs, existing methods struggle to balance privacy protection with maintaining model utility. In this paper, inspired by studies of amnesia in cognitive science, we propose a novel approach, Proactive Privacy Amnesia (PPA), to safeguard PII in LLMs while preserving their utility. This mechanism works by actively identifying and forgetting key memories most closely associated with PII in sequences, followed by a memory implanting using suitable substitute memories to maintain the LLM’s functionality. We conduct evaluations across multiple models to protect common PII, such as phone numbers and physical addresses, against prevalent PII-targeted attacks, demonstrating the superiority of our method compared with other existing defensive techniques. The results show that our PPA method completely eliminates the risk of phone number exposure by 100% and significantly reduces the risk of physical address exposure by 9.8% – 87.6%, all while maintaining comparable model utility performance.
arxiv情報
著者 | Martin Kuo,Jingyang Zhang,Jianyi Zhang,Minxue Tang,Louis DiValentin,Aolin Ding,Jingwei Sun,William Chen,Amin Hass,Tianlong Chen,Yiran Chen,Hai Li |
発行日 | 2025-03-11 17:32:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google