Reconstructing Training Data from Trained Neural Networks

要約

ニューラルネットワークがどの程度まで学習データを記憶しているかを理解することは、実用的かつ理論的な意味を持つ興味深い問題である。本論文では、場合によっては、訓練データのかなりの部分が、訓練されたニューラルネットワーク分類器のパラメータから再構成できることを示す。我々は、勾配に基づく手法でニューラルネットワークを訓練する際の暗黙の偏りに関する最近の理論的結果に由来する、新しい再構成スキームを提案する。我々の知る限り、我々の結果は、訓練されたニューラルネットワーク分類器から実際の訓練サンプルの大部分を再構成することが一般に可能であることを示した最初のものである。これは、機密性の高い訓練データを明らかにするための攻撃として利用できるため、プライバシーに対して否定的な意味を持つ。我々は、いくつかの標準的なコンピュータビジョンデータセットで、バイナリMLP分類器に対する我々の方法を実証する。

要約(オリジナル)

Understanding to what extent neural networks memorize training data is an intriguing question with practical and theoretical implications. In this paper we show that in some cases a significant fraction of the training data can in fact be reconstructed from the parameters of a trained neural network classifier. We propose a novel reconstruction scheme that stems from recent theoretical results about the implicit bias in training neural networks with gradient-based methods. To the best of our knowledge, our results are the first to show that reconstructing a large portion of the actual training samples from a trained neural network classifier is generally possible. This has negative implications on privacy, as it can be used as an attack for revealing sensitive training data. We demonstrate our method for binary MLP classifiers on a few standard computer vision datasets.

arxiv情報

著者 Niv Haim,Gal Vardi,Gilad Yehudai,Ohad Shamir,Michal Irani
発行日 2022-12-05 14:49:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.LG, cs.NE, stat.ML パーマリンク