Can Language Models be Instructed to Protect Personal Information?

要約

大規模なマルチモーダル言語モデルは、多くのアプリケーションで変革をもたらすことが証明されている。しかし、これらのモデルは、事前学習データを記憶し、漏えいすることが示されており、ユーザーのプライバシーと情報セキュリティに関する深刻な懸念を引き起こしている。データ漏えいは防止されるべきであるが、提案されたアプローチのプライバシー保護とモデルの実用性のトレードオフを検討することも極めて重要である。本論文では、PrivQAを紹介する。PrivQAは、模擬シナリオにおいてモデルが特定のカテゴリの個人情報を保護するよう指示された場合に、このプライバシーとユーティリティのトレードオフを評価するためのマルチモーダルベンチマークである。また、応答を反復的に自己調整する技術を提案し、これによりプライバシーを大幅に改善する。しかし、一連のレッドチーム実験を通じて、敵対者はテキストや画像の入力を通じて、簡単な脱獄手法でこれらの保護を容易に回避できることも発見した。我々は、PrivQAが、改善されたプライバシー保護と、これらの保護の敵対的な堅牢性を持つ新しいモデルの開発をサポートする可能性を持っていると信じている。PrivQAデータセット全体をhttps://llm-access-control.github.io/。

要約(オリジナル)

Large multimodal language models have proven transformative in numerous applications. However, these models have been shown to memorize and leak pre-training data, raising serious user privacy and information security concerns. While data leaks should be prevented, it is also crucial to examine the trade-off between the privacy protection and model utility of proposed approaches. In this paper, we introduce PrivQA — a multimodal benchmark to assess this privacy/utility trade-off when a model is instructed to protect specific categories of personal information in a simulated scenario. We also propose a technique to iteratively self-moderate responses, which significantly improves privacy. However, through a series of red-teaming experiments, we find that adversaries can also easily circumvent these protections with simple jailbreaking methods through textual and/or image inputs. We believe PrivQA has the potential to support the development of new models with improved privacy protections, as well as the adversarial robustness of these protections. We release the entire PrivQA dataset at https://llm-access-control.github.io/.

arxiv情報

著者 Yang Chen,Ethan Mendes,Sauvik Das,Wei Xu,Alan Ritter
発行日 2023-10-03 17:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク