Knowledge Sanitization of Large Language Models

要約

我々は、大規模言語モデル(LLM)に関連するプライバシーの懸念を軽減するための知識サニタイズアプローチを探求する。大規模なWebデータのコーパスに対して学習されたLLMは、機密情報や秘密情報を記憶し、潜在的に暴露する可能性があり、セキュリティ上の重大な懸念を引き起こす。我々の技術では、低ランク適応(LoRA)法を用いてこれらのモデルを効率的に微調整し、特定の情報についてのクエリがあったときに「知らない」といった無害な応答を生成するように促す。クローズドブックの質問応答タスクにおける実験結果は、我々の素直な方法が特定の知識の漏洩を最小化するだけでなく、LLMの全体的な性能も維持することを示している。これらの2つの利点は、抽出攻撃に対する防御を強化し、幻覚のような有害なコンテンツの放出を減少させる。

要約(オリジナル)

We explore a knowledge sanitization approach to mitigate the privacy concerns associated with large language models (LLMs). LLMs trained on a large corpus of Web data can memorize and potentially reveal sensitive or confidential information, raising critical security concerns. Our technique efficiently fine-tunes these models using the Low-Rank Adaptation (LoRA) method, prompting them to generate harmless responses such as “I don’t know” when queried about specific information. Experimental results in a closed-book question-answering task show that our straightforward method not only minimizes particular knowledge leakage but also preserves the overall performance of LLMs. These two advantages strengthen the defense against extraction attacks and reduces the emission of harmful content such as hallucinations.

arxiv情報

著者 Yoichi Ishibashi,Hidetoshi Shimodaira
発行日 2024-03-02 08:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク