Membership Inference Attack against Long-Context Large Language Models

要約

大規模言語モデル (LLM) の最近の進歩により、コンテキスト ウィンドウの制限を克服し、より長いコンテキストに対する優れた検索能力と推論能力を実証できるようになりました。
ロングコンテキスト言語モデル (LCLM) で強化された質問応答システムは、大量の外部データを自動的に検索してコンテキストに組み込むことができるため、忠実な予測が可能になり、幻覚や知識の陳腐化などの問題が軽減されます。
LCLM を対象とした既存の研究は、主に、いわゆる中間者喪失問題への対処や推論効率の向上に焦点を当てており、LCLM のプライバシー リスクはほとんど調査されていません。
この論文では、このギャップを埋めることを目的としており、すべての情報を長いコンテキストに統合すると、医療記録や個人情報などの個人データが含まれることが多い機密情報のリポジトリになると主張します。
特定の文書またはシーケンスが LCLM コンテキストに含まれるかどうかを判断することを目的として、LCLM の外部コンテキスト内のメンバーシップのプライバシーをさらに調査します。
私たちの基本的な考え方は、ドキュメントがコンテキスト内に存在する場合、そのドキュメントは生成損失が低いか、LCLM によって生成されたコンテンツとの高度な意味的類似性を示す、というものです。
私たちは初めて、LCLM に合わせた 6 つのメンバーシップ推論攻撃 (MIA) 戦略を提案し、さまざまな人気モデルで広範な実験を実施しました。
経験的な結果は、私たちの攻撃がほとんどの場合にメンバーシップのステータスを正確に推測できることを示しています。たとえば、LongChat-7b-v1.5-32k を使用したマルチドキュメント QA データセットの F1 スコアは 90.66% で攻撃され、LCLM の入力コンテキスト内でのメンバーシップ漏洩の重大なリスクが強調されています。

さらに、LCLM がそのような会員情報を漏らしやすい根本的な理由を調査します。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have enabled them to overcome their context window limitations, and demonstrate exceptional retrieval and reasoning capacities on longer context. Quesion-answering systems augmented with Long-Context Language Models (LCLMs) can automatically search massive external data and incorporate it into their contexts, enabling faithful predictions and reducing issues such as hallucinations and knowledge staleness. Existing studies targeting LCLMs mainly concentrate on addressing the so-called lost-in-the-middle problem or improving the inference effiencicy, leaving their privacy risks largely unexplored. In this paper, we aim to bridge this gap and argue that integrating all information into the long context makes it a repository of sensitive information, which often contains private data such as medical records or personal identities. We further investigate the membership privacy within LCLMs external context, with the aim of determining whether a given document or sequence is included in the LCLMs context. Our basic idea is that if a document lies in the context, it will exhibit a low generation loss or a high degree of semantic similarity to the contents generated by LCLMs. We for the first time propose six membership inference attack (MIA) strategies tailored for LCLMs and conduct extensive experiments on various popular models. Empirical results demonstrate that our attacks can accurately infer membership status in most cases, e.g., 90.66% attack F1-score on Multi-document QA datasets with LongChat-7b-v1.5-32k, highlighting significant risks of membership leakage within LCLMs input contexts. Furthermore, we examine the underlying reasons why LCLMs are susceptible to revealing such membership information.

arxiv情報

著者 Zixiong Wang,Gaoyang Liu,Yang Yang,Chen Wang
発行日 2024-11-18 09:50:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク