要約
データのプライバシーとセキュリティに対する懸念の高まりは、マシンの学習の重要性を強調しています。これは、完全な再訓練なしでトレーニングされたモデルからの特定のデータの影響を除去します。
メンバーシップ推論攻撃(MIA)のような手法は、成功した未学習を外部的に評価するために広く使用されています。
ただし、既存の方法は2つの重要な制限に直面しています。(1)MIAの有効性を最大化する(たとえば、オンライン攻撃を介して)、多くの場合、再訓練コストを超える法外な計算リソースが必要です。
(2)バイナリインクルージョンテスト用に設計されたMIAは、おおよその学習において粒状の変化を捉えるのに苦労しています。
これらの課題に対処するために、補間化された近似測定(IAM)を提案します。これは、学習の推論のためにネイティブに設計されたフレームワークです。
IAMは、クエリされたサンプルのモデルの一般化適合の動作ギャップを補間することにより、サンプルレベルの学習完全性を定量化します。
IAMは、1つの事前訓練を受けたシャドウモデルのみを使用してLLMSが拡大するために、正確に学習していない、正確に学習し、高い相関関係のためにバイナリインクルージョンテストで強力なパフォーマンスを達成します。
IAMのスコアリングメカニズムがパフォーマンスを効率的に維持する方法を理論的に分析します。
次に、IAMを最近のおおよその未学習アルゴリズムに適用し、非不規則と不正行為の両方の両方の一般的なリスクを明らかにし、概算されていないシステムにおけるより強力なセーフガードの必要性を強調しています。
このコードは、https://github.com/happy2git/unlearning_inference_iamで入手できます。
要約(オリジナル)
Growing concerns over data privacy and security highlight the importance of machine unlearning–removing specific data influences from trained models without full retraining. Techniques like Membership Inference Attacks (MIAs) are widely used to externally assess successful unlearning. However, existing methods face two key limitations: (1) maximizing MIA effectiveness (e.g., via online attacks) requires prohibitive computational resources, often exceeding retraining costs; (2) MIAs, designed for binary inclusion tests, struggle to capture granular changes in approximate unlearning. To address these challenges, we propose the Interpolated Approximate Measurement (IAM), a framework natively designed for unlearning inference. IAM quantifies sample-level unlearning completeness by interpolating the model’s generalization-fitting behavior gap on queried samples. IAM achieves strong performance in binary inclusion tests for exact unlearning and high correlation for approximate unlearning–scalable to LLMs using just one pre-trained shadow model. We theoretically analyze how IAM’s scoring mechanism maintains performance efficiently. We then apply IAM to recent approximate unlearning algorithms, revealing general risks of both over-unlearning and under-unlearning, underscoring the need for stronger safeguards in approximate unlearning systems. The code is available at https://github.com/Happy2Git/Unlearning_Inference_IAM.
arxiv情報
著者 | Cheng-Long Wang,Qi Li,Zihang Xiang,Yinzhi Cao,Di Wang |
発行日 | 2025-06-06 14:22:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google