要約
大規模言語モデル (LLM) はさまざまなアプリケーションでますます使用されていますが、メンバーシップ推論に関する懸念も同時に高まっています。
これまでの取り組みは、ブラック ボックスからグレー ボックスへのモデルに焦点を当てていたため、内部 LLM 情報から得られる潜在的な利点が無視されていました。
これに対処するために、LLM の内部活性化を調べることでメンバーシップ推論攻撃 (MIA) を検出する方法として線形プローブ (LP) を使用することを提案します。
LUMIA と呼ばれる私たちのアプローチは、LP をレイヤーごとに適用して、モデルの内部動作に関する詳細なデータを取得します。
このメソッドを、ユニモーダル タスクとマルチモーダル タスクを含む、いくつかのモデル アーキテクチャ、サイズ、データセットにわたってテストします。
ユニモーダル MIA では、LUMIA は以前の技術と比較して、曲線下面積 (AUC) で平均 15.71 % の向上を達成します。
注目すべきことに、LUMIA は 65.33% のケースで AUC >60% に達しており、これは最新技術と比較して 46.80% の増加です。
さらに、私たちのアプローチは、MIA が最も検出されやすいモデル層などの重要な洞察を明らかにします。
マルチモーダル モデルでは、LP は視覚入力が MIA の検出に大きく貢献できることを示しています。実験の 85.90% で AUC>60% に達しています。
要約(オリジナル)
Large Language Models (LLMs) are increasingly used in a variety of applications, but concerns around membership inference have grown in parallel. Previous efforts focus on black-to-grey-box models, thus neglecting the potential benefit from internal LLM information. To address this, we propose the use of Linear Probes (LPs) as a method to detect Membership Inference Attacks (MIAs) by examining internal activations of LLMs. Our approach, dubbed LUMIA, applies LPs layer-by-layer to get fine-grained data on the model inner workings. We test this method across several model architectures, sizes and datasets, including unimodal and multimodal tasks. In unimodal MIA, LUMIA achieves an average gain of 15.71 % in Area Under the Curve (AUC) over previous techniques. Remarkably, LUMIA reaches AUC>60% in 65.33% of cases — an increment of 46.80% against the state of the art. Furthermore, our approach reveals key insights, such as the model layers where MIAs are most detectable. In multimodal models, LPs indicate that visual inputs can significantly contribute to detect MIAs — AUC>60% is reached in 85.90% of experiments.
arxiv情報
著者 | Luis Ibanez-Lissen,Lorena Gonzalez-Manzano,Jose Maria de Fuentes,Nicolas Anciaux,Joaquin Garcia-Alfaro |
発行日 | 2024-11-29 17:38:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google