Order of Magnitude Speedups for LLM Membership Inference

要約

大規模言語モデル (LLM) は、コンピューティングに広範な革命をもたらすと期待されていますが、その複雑さと膨大なトレーニング データにより、重大なプライバシーの脆弱性も露呈します。
LLM に関連する最も単純なプライバシー リスクの 1 つは、メンバーシップ推論攻撃 (MIA) に対する脆弱性です。攻撃者は、特定のデータ ポイントがモデルのトレーニング セットの一部であるかどうかを判断することを目的としています。
これは既知のリスクですが、MIA の最先端の方法論は、計算コストのかかる複数のシャドウ モデルのトレーニングに依存しているため、大規模なモデルのリスク評価は法外なものになっています。
ここでは、分位点回帰を使用してメンバーシップ推論攻撃を仕掛ける最近の一連の作業を適応させます。
私たちは、ドキュメントがモデルのトレーニング セットに属しているかどうかを判断するために、小さな分位点回帰モデルのアンサンブルを活用する低コストの MIA を提案することで、この研究を拡張します。
さまざまなファミリー (OPT、Pythia、Llama) の微調整された LLM および複数のデータセットにわたるこのアプローチの有効性を実証します。
すべてのシナリオにおいて、最先端のシャドウ モデル アプローチと比較して、わずか 6% の計算予算で同等または向上した精度が得られます。
マルチエポックでトレーニングされたターゲット モデル全体での有効性の向上と、アーキテクチャのミス仕様に対する堅牢性を実証します。つまり、ターゲット モデルに関する知識を必要とせずに、異なるトークナイザーとアーキテクチャを使用してモデルに対して効果的な攻撃を仕掛けることができます。

要約(オリジナル)

Large Language Models (LLMs) have the promise to revolutionize computing broadly, but their complexity and extensive training data also expose significant privacy vulnerabilities. One of the simplest privacy risks associated with LLMs is their susceptibility to membership inference attacks (MIAs), wherein an adversary aims to determine whether a specific data point was part of the model’s training set. Although this is a known risk, state of the art methodologies for MIAs rely on training multiple computationally costly shadow models, making risk evaluation prohibitive for large models. Here we adapt a recent line of work which uses quantile regression to mount membership inference attacks; we extend this work by proposing a low-cost MIA that leverages an ensemble of small quantile regression models to determine if a document belongs to the model’s training set or not. We demonstrate the effectiveness of this approach on fine-tuned LLMs of varying families (OPT, Pythia, Llama) and across multiple datasets. Across all scenarios we obtain comparable or improved accuracy compared to state of the art shadow model approaches, with as little as 6% of their computation budget. We demonstrate increased effectiveness across multi-epoch trained target models, and architecture miss-specification robustness, that is, we can mount an effective attack against a model using a different tokenizer and architecture, without requiring knowledge on the target model.

arxiv情報

著者 Rongting Zhang,Martin Bertran,Aaron Roth
発行日 2024-09-24 17:48:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML パーマリンク