MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector

要約

大規模言語モデル (LLM) のパラメーターと膨大なデータセットの増加により、LLM に関連する根本的なプライバシー リスクと著作権問題を監査するための技術的ソリューションに対する緊急の需要が浮き彫りになっています。
既存の研究では、メンバーシップ推論攻撃 (MIA) のインスタンスであるトレーニング前データ検出問題の調査を通じて、このニーズに部分的に対処しています。
この問題には、ターゲット LLM の事前トレーニング段階で特定のテキストが使用されたかどうかを判断することが含まれます。
既存の手法では、事前トレーニング済み LLM でかなりの検出パフォーマンスを達成するためにさまざまな高度な MIA スコア関数が設計されていますが、信頼性の高い検出を実現する方法と、位置合わせされた LLM で MIA を実行する方法は依然として課題です。
この論文では、新しい命令ベースの MIA 手法である MIA-Tuner を提案します。これは、外部 MIA スコア関数を設計するのではなく、内部でより正確な事前トレーニング データ検出器として機能するように LLM 自体に指示します。
さらに、既存の方法と MIA-Tuner によってもたらされるプライバシー リスクをそれぞれ軽減する 2 つの命令ベースの保護手段を設計します。
最新の最先端 LLM を包括的に評価するために、広く採用されているベンチマーク WIKIMIA に代わる、WIKIMIA-24 というより最新の MIA ベンチマーク データセットを収集します。
私たちは、2 つのベンチマーク データセットに対して、さまざまな調整済みおよび調整されていない LLM にわたって広範な実験を実施します。
結果は、MIA-Tuner が MIA の AUC を 0.7 から 0.9 というかなり高いレベルに増加させることを示しています。

要約(オリジナル)

The increasing parameters and expansive dataset of large language models (LLMs) highlight the urgent demand for a technical solution to audit the underlying privacy risks and copyright issues associated with LLMs. Existing studies have partially addressed this need through an exploration of the pre-training data detection problem, which is an instance of a membership inference attack (MIA). This problem involves determining whether a given piece of text has been used during the pre-training phase of the target LLM. Although existing methods have designed various sophisticated MIA score functions to achieve considerable detection performance in pre-trained LLMs, how to achieve high-confidence detection and how to perform MIA on aligned LLMs remain challenging. In this paper, we propose MIA-Tuner, a novel instruction-based MIA method, which instructs LLMs themselves to serve as a more precise pre-training data detector internally, rather than design an external MIA score function. Furthermore, we design two instruction-based safeguards to respectively mitigate the privacy risks brought by the existing methods and MIA-Tuner. To comprehensively evaluate the most recent state-of-the-art LLMs, we collect a more up-to-date MIA benchmark dataset, named WIKIMIA-24, to replace the widely adopted benchmark WIKIMIA. We conduct extensive experiments across various aligned and unaligned LLMs over the two benchmark datasets. The results demonstrate that MIA-Tuner increases the AUC of MIAs from 0.7 to a significantly high level of 0.9.

arxiv情報

著者 Wenjie Fu,Huandong Wang,Chen Gao,Guanghua Liu,Yong Li,Tao Jiang
発行日 2024-08-16 11:09:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク