Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Attacks

要約

事前トレーニングされた言語モデルには、記憶された個人情報や人に害を及ぼすために使用される可能性のある知識など、私たちが望まない知識が含まれることがあります。
また、有毒または有害なテキストを出力する可能性もあります。
これらの安全性と情報の問題を軽減するために、モデルの重みから機密情報を直接削除するタスクを研究するための攻撃と防御のフレームワークを提案します。
私たちは、モデルの重みへの直接編集を研究しています。その理由は、(1) このアプローチは、削除された特定の情報が将来のプロンプト攻撃によって決して抽出されないことを保証する必要があること、(2) ホワイトボックス攻撃から保護する必要があるためです。ホワイトボックス攻撃は、安全性/プライバシーについて主張するために必要です。
公開されているモデルの重みを使用して機密情報を引き出すことができる設定。
私たちの脅威モデルは、回答が B 個の候補に含まれる場合に情報が安全ではないというシナリオに基づいて、機密の質問に対する回答が生成された B 個の候補のセットの中にある場合に攻撃が成功すると仮定します。
ホワイトボックス攻撃とブラックボックス攻撃では、編集されたモデルから「削除された」情報を 38% 回復できるため、ROME などの最先端のモデル編集手法でも、GPT-J のようなモデルから事実情報を完全に削除するのは困難であることが実験的に示されています。
当時の。
これらの攻撃は、2 つの重要な観察結果を利用しています。(1) 削除された情報の痕跡は中間モデルの非表示状態で見つかる可能性があるということ、および (2) 1 つの質問に編集方法を適用しても、質問の言い換えバージョン全体では情報が削除されない可能性があるということです。
最後に、一部の抽出攻撃から保護する新しい防御方法を提供しますが、普遍的に効果的な単一の防御方法は見つかりません。
私たちの結果は、攻撃の成功率が比較的低い場合でも、言語モデルの実際の展開に対して深刻な社会的影響を与える可能性があるため、機密情報を真に削除することは扱いやすいが難しい問題であることを示唆しています。

要約(オリジナル)

Pretrained language models sometimes possess knowledge that we do not wish them to, including memorized personal information and knowledge that could be used to harm people. They can also output toxic or harmful text. To mitigate these safety and informational issues, we propose an attack-and-defense framework for studying the task of deleting sensitive information directly from model weights. We study direct edits to model weights because (1) this approach should guarantee that particular deleted information is never extracted by future prompt attacks, and (2) it should protect against whitebox attacks, which is necessary for making claims about safety/privacy in a setting where publicly available model weights could be used to elicit sensitive information. Our threat model assumes that an attack succeeds if the answer to a sensitive question is located among a set of B generated candidates, based on scenarios where the information would be insecure if the answer is among B candidates. Experimentally, we show that even state-of-the-art model editing methods such as ROME struggle to truly delete factual information from models like GPT-J, as our whitebox and blackbox attacks can recover ‘deleted’ information from an edited model 38% of the time. These attacks leverage two key observations: (1) that traces of deleted information can be found in intermediate model hidden states, and (2) that applying an editing method for one question may not delete information across rephrased versions of the question. Finally, we provide new defense methods that protect against some extraction attacks, but we do not find a single universally effective defense method. Our results suggest that truly deleting sensitive information is a tractable but difficult problem, since even relatively low attack success rates have potentially severe societal implications for real-world deployment of language models.

arxiv情報

著者 Vaidehi Patil,Peter Hase,Mohit Bansal
発行日 2023-09-29 17:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク