要約
大規模な言語モデル(LLM)は、機密のユーザーデータを保護するためにますます使用されています。
ただし、現在のLLMベースのプライバシーソリューションでは、これらのモデルが個人を特定できる情報(PII)、特に指定されたエンティティを確実に検出できると想定しています。
この論文では、LLMベースのプライバシータスクの体系的な障害を明らかにすることにより、その仮定に挑戦します。
具体的には、現代のLLMは、曖昧な文脈のために短いテキストスニペットでも定期的に人間の名前を見落としていることを示しています。
一見曖昧な人間名のベンチマークデータセットであるAmbenchを提案します。これは、簡潔なテキストスニペットに埋め込まれた、良性の迅速な注入とともに、規則性バイアス現象をレバレッジします。
PIIと特殊なツールを検出するように任された最新のLLMSに関する実験は、より認識可能な名前と比較して、あいまいな名前のリコールが20–40%低下することを示しています。
さらに、曖昧な人間名は、良性の迅速な注入が存在する場合にLLMSによって生成されるプライバシーを提供する概要では、4倍無視される可能性があります。
これらの調査結果は、ユーザーのプライバシーを保護し、プライバシー障害モードのより体系的な調査の必要性を強調するためにLLMのみに依存するという未熟なリスクを強調しています。
要約(オリジナル)
Large language models (LLMs) are increasingly being used to protect sensitive user data. However, current LLM-based privacy solutions assume that these models can reliably detect personally identifiable information (PII), particularly named entities. In this paper, we challenge that assumption by revealing systematic failures in LLM-based privacy tasks. Specifically, we show that modern LLMs regularly overlook human names even in short text snippets due to ambiguous contexts, which cause the names to be misinterpreted or mishandled. We propose AMBENCH, a benchmark dataset of seemingly ambiguous human names, leveraging the name regularity bias phenomenon, embedded within concise text snippets along with benign prompt injections. Our experiments on modern LLMs tasked to detect PII as well as specialized tools show that recall of ambiguous names drops by 20–40% compared to more recognizable names. Furthermore, ambiguous human names are four times more likely to be ignored in supposedly privacy-preserving summaries generated by LLMs when benign prompt injections are present. These findings highlight the underexplored risks of relying solely on LLMs to safeguard user privacy and underscore the need for a more systematic investigation into their privacy failure modes.
arxiv情報
著者 | Dzung Pham,Peter Kairouz,Niloofar Mireshghallah,Eugene Bagdasarian,Chau Minh Pham,Amir Houmansadr |
発行日 | 2025-05-20 16:05:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google