NeuroMixGDP: A Neural Collapse-Inspired Random Mixup for Private Data Release

要約

プライバシー保護データ公開アルゴリズムは、下流の機械学習タスクを有効にしながらユーザーのプライバシーを保護できる機能としてますます注目を集めています。
ただし、現在普及しているアルゴリズムの有用性は必ずしも満足できるものではありません。
生データを混合することで、データを拡張する新しい方法が提供され、実用性の向上に役立ちます。
ただし、差分プライバシー (DP) ノイズが追加されると、そのパフォーマンスは大幅に低下します。
この問題に対処するために、この論文は、最近観察されたニューラル コラプス (NC) 現象からインスピレーションを得ています。この現象は、ニューラル ネットワークの最後の層の特徴が等角タイト フレーム (ETF) として単体の頂点に集中すると述べています。
ニューラルコラプス機能を混合してETFシンプレックス構造を利用し、ノイズの多い混合機能をリリースしてリリースされたデータの有用性を高めるスキームを提案します。
ガウス差分プライバシー (GDP) を使用することにより、最適な混合度の漸近率が得られます。
ユーティリティをさらに強化し、混合度が大きい場合のラベル崩壊の問題に対処するために、少数のクラスで混合サンプルを階層化する階層的サンプリング方法を提案します。
この方法により、クラス数が多い場合の実用性が著しく向上する。
広範な実験により、攻撃からの保護と実用性の向上において、私たちが提案した方法の有効性が実証されています。
特に、私たちのアプローチは、CIFAR100 および MiniImagenet データセット上で DPSGD を使用して分類ネットワークを直接トレーニングする場合と比較して、実用性が大幅に向上していることを示し、プライバシー保護データ リリースを使用する利点を強調しています。
再現可能なコードを https://github.com/Lidonghao1996/NeuroMixGDP で公開しています。

要約(オリジナル)

Privacy-preserving data release algorithms have gained increasing attention for their ability to protect user privacy while enabling downstream machine learning tasks. However, the utility of current popular algorithms is not always satisfactory. Mixup of raw data provides a new way of data augmentation, which can help improve utility. However, its performance drastically deteriorates when differential privacy (DP) noise is added. To address this issue, this paper draws inspiration from the recently observed Neural Collapse (NC) phenomenon, which states that the last layer features of a neural network concentrate on the vertices of a simplex as Equiangular Tight Frame (ETF). We propose a scheme to mixup the Neural Collapse features to exploit the ETF simplex structure and release noisy mixed features to enhance the utility of the released data. By using Gaussian Differential Privacy (GDP), we obtain an asymptotic rate for the optimal mixup degree. To further enhance the utility and address the label collapse issue when the mixup degree is large, we propose a Hierarchical sampling method to stratify the mixup samples on a small number of classes. This method remarkably improves utility when the number of classes is large. Extensive experiments demonstrate the effectiveness of our proposed method in protecting against attacks and improving utility. In particular, our approach shows significantly improved utility compared to directly training classification networks with DPSGD on CIFAR100 and MiniImagenet datasets, highlighting the benefits of using privacy-preserving data release. We release reproducible code in https://github.com/Lidonghao1996/NeuroMixGDP.

arxiv情報

著者 Donghao Li,Yang Cao,Yuan Yao
発行日 2023-12-05 14:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク