Uncovering the Limitations of Model Inversion Evaluation: Benchmarks and Connection to Type-I Adversarial Attacks

要約

モデルの反転(MI)攻撃は、機械学習モデルへのアクセスを活用することにより、プライベートトレーニングデータの情報を再構築することを目的としています。
MI攻撃/防御の最も一般的な評価フレームワークは、近年提案されているほぼすべてのMI攻撃と防御にわたって進捗を評価するために利用されている評価モデルに依存しています。
この論文では、初めて、MI評価の詳細な研究を提示します。
第一に、MI攻撃サンプルの最初の包括的なヒトが解放されたデータセットを構築し、28の異なるMI攻撃、防御、プライベートおよびパブリックデータセットのセットアップに基づいて構築します。
第二に、データセットを使用して、MI評価フレームワークの精度を調べ、かなりの数の誤検知に苦しんでいることを明らかにします。
これらの調査結果は、以前に報告されたSOTA MI攻撃の成功率に関する疑問を提起します。
第三に、これらの誤検知、設計制御実験の原因を分析し、MI評価に対するI型敵対的な特徴の驚くべき効果、および敵対的な移動性を発見し、以前に2つの異なる研究領域間の関係を強調します。
私たちの調査結果は、Sota MI攻撃のパフォーマンスが過大評価されており、実際のプライバシー漏れは以前に報告されたよりも大幅に少ないことを示唆しています。
結論として、広く使用されているMI評価フレームワークの重大な制限を強調し、偽陽性率を緩和する方法を提示します。
私たちは、以前の研究では、既存の解決策がなく、タイプIの敵対的攻撃が非常に困難であることを示していることに注意してください。
したがって、以前のMI研究のように、単なるサプリメントではなく、人間の評価を主要なMI評価フレームワークと見なすことを促します。
また、より堅牢で信頼性の高い自動評価フレームワークの開発に関するさらなる作業をお勧めします。

要約(オリジナル)

Model Inversion (MI) attacks aim to reconstruct information of private training data by exploiting access to machine learning models. The most common evaluation framework for MI attacks/defenses relies on an evaluation model that has been utilized to assess progress across almost all MI attacks and defenses proposed in recent years. In this paper, for the first time, we present an in-depth study of MI evaluation. Firstly, we construct the first comprehensive human-annotated dataset of MI attack samples, based on 28 setups of different MI attacks, defenses, private and public datasets. Secondly, using our dataset, we examine the accuracy of the MI evaluation framework and reveal that it suffers from a significant number of false positives. These findings raise questions about the previously reported success rates of SOTA MI attacks. Thirdly, we analyze the causes of these false positives, design controlled experiments, and discover the surprising effect of Type I adversarial features on MI evaluation, as well as adversarial transferability, highlighting a relationship between two previously distinct research areas. Our findings suggest that the performance of SOTA MI attacks has been overestimated, with the actual privacy leakage being significantly less than previously reported. In conclusion, we highlight critical limitations in the widely used MI evaluation framework and present our methods to mitigate false positive rates. We remark that prior research has shown that Type I adversarial attacks are very challenging, with no existing solution. Therefore, we urge to consider human evaluation as a primary MI evaluation framework rather than merely a supplement as in previous MI research. We also encourage further work on developing more robust and reliable automatic evaluation frameworks.

arxiv情報

著者 Sy-Tuyen Ho,Koh Jun Hao,Ngoc-Bao Nguyen,Alexander Binder,Ngai-Man Cheung
発行日 2025-05-06 13:32:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク