要約
個人データがオンラインで公開されると、ディープ ニューラル ネットワーク (DNN) をトレーニングするために権限のない当事者によって収集される可能性があります。
プライバシーを保護するために、元のサンプルに防御ノイズを追加して、DNN による学習可能性を低下させることができます。
最近、モデルがほとんど何も学習しないようにトレーニング損失を最小限に抑えるために、学習不可能な例が提案されています。
ただし、生データはトレーニングに使用される前に前処理されることが多く、保護されたデータの個人情報が復元される可能性があります。
この論文では、モデルの汎化能力を向上させるために一般的に使用されるデータ前処理技術であるデータ拡張によって引き起こされるデータプライバシー侵害を明らかにします。これは、私たちの知る限り、この種のものとしては初めてのことです。
データ拡張により、学習不可能な例でトレーニングされたモデルの精度が 21.3% から 66.1% に大幅に向上することを実証します。
この問題に対処するために、私たちはデータ拡張の潜在的な侵害からデータのプライバシーを保護する、ARMOR と呼ばれる防御フレームワークを提案します。
モデルのトレーニング プロセスにアクセスできないという問題を克服するために、データ拡張の効果をより適切に捉える非ローカル モジュール支援のサロゲート モデルを設計します。
さらに、各クラスに最適な拡張戦略を選択するために、拡張サンプルと非拡張サンプル間の分布の調整を最大化する代理拡張選択戦略を設計します。
また、動的ステップ サイズ調整アルゴリズムを使用して、防御ノイズ生成プロセスを強化します。
ARMOR のパフォーマンスを検証するために、4 つのデータセットと 5 つのデータ拡張方法について広範な実験が行われています。
6 つの最先端の防御方法との比較により、ARMOR がデータ拡張下で保護された個人データの学習不能性を維持できることが実証されました。
ARMOR は、強化された保護サンプルでトレーニングされたモデルのテスト精度をベースラインよりも 60% も低下させます。
要約(オリジナル)
Private data, when published online, may be collected by unauthorized parties to train deep neural networks (DNNs). To protect privacy, defensive noises can be added to original samples to degrade their learnability by DNNs. Recently, unlearnable examples are proposed to minimize the training loss such that the model learns almost nothing. However, raw data are often pre-processed before being used for training, which may restore the private information of protected data. In this paper, we reveal the data privacy violation induced by data augmentation, a commonly used data pre-processing technique to improve model generalization capability, which is the first of its kind as far as we are concerned. We demonstrate that data augmentation can significantly raise the accuracy of the model trained on unlearnable examples from 21.3% to 66.1%. To address this issue, we propose a defense framework, dubbed ARMOR, to protect data privacy from potential breaches of data augmentation. To overcome the difficulty of having no access to the model training process, we design a non-local module-assisted surrogate model that better captures the effect of data augmentation. In addition, we design a surrogate augmentation selection strategy that maximizes distribution alignment between augmented and non-augmented samples, to choose the optimal augmentation strategy for each class. We also use a dynamic step size adjustment algorithm to enhance the defensive noise generation process. Extensive experiments are conducted on 4 datasets and 5 data augmentation methods to verify the performance of ARMOR. Comparisons with 6 state-of-the-art defense methods have demonstrated that ARMOR can preserve the unlearnability of protected private data under data augmentation. ARMOR reduces the test accuracy of the model trained on augmented protected samples by as much as 60% more than baselines.
arxiv情報
著者 | Xueluan Gong,Yuji Wang,Yanjiao Chen,Haocheng Dong,Yiming Li,Mengyuan Sun,Shuaike Li,Qian Wang,Chen Chen |
発行日 | 2025-01-15 15:22:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google