要約
データ蒸留は、元のデータ セットに対する特定の学習アルゴリズムのパフォーマンスを厳密に模倣する小さなデータ セットを生成することを目的としています。
したがって、抽出されたデータセットは、データ サイズが小さいため、トレーニング プロセスを簡素化するのに役立ちます。
ただし、抽出されたデータ サンプルは、一般に人間には識別できない場合でも、必ずしもプライバシーを保護するとは限りません。
この制限に対処するために、プライバシーを保護しながらデータを蒸留するための差分プライベート カーネル誘導ポイント (DP-KIP) を導入します。
単純に DP-SGD を KIP のフレームワークに適用するという当初の意図とは異なり、無限幅の畳み込みニューラル タンジェント カーネル (conv-NTK) を使用した KIP は、完全に接続された NTK を使用した KIP と比較してパフォーマンスが優れていることがわかりました。
ただし、conv-NTK を使用した KIP は、畳み込み演算とプーリング演算により、耐え難い計算の複雑さをもたらし、トレーニングには何百もの V100 GPU を並行して必要としますが、これは非現実的であり、さらに重要なことに、そのような計算リソースは多くの人にとってアクセスできません。
この問題を克服するために、(プライバシーの損失を避けるために)事前トレーニングを必要とせず、conv-NKT の機能のように画像上の複雑な情報をうまくキャプチャできる一方、計算コストは 1 つの計算コストで管理できる代替案を提案します。
V100GPU。
この目的のために、我々は、conv-NTK のウェーブレット機能の代わりに散乱ネットワーク (ScatterNet) のウェーブレット機能を使用して、妥当な計算コストで DP-KIP を実行する DP-KIP-ScatterNet を提案します。
私たちは DP-KIP-ScatterNet を計算効率の高い JAX に実装し、いくつかの一般的な画像データセットでテストして、その有効性と、差分プライバシー保証を備えた画像データ蒸留における最先端の方法と比較して優れたパフォーマンスを示します。
要約(オリジナル)
Data distillation aims to generate a small data set that closely mimics the performance of a given learning algorithm on the original data set. The distilled dataset is hence useful to simplify the training process thanks to its small data size. However, distilled data samples are not necessarily privacy-preserving, even if they are generally humanly indiscernible. To address this limitation, we introduce differentially private kernel inducing points (DP-KIP) for privacy-preserving data distillation. Unlike our original intention to simply apply DP-SGD to the framework of KIP, we find that KIP using infinitely-wide convolutional neural tangent kernels (conv-NTKs) performs better compared to KIP using fully-connected NTKs. However, KIP with conv-NTKs, due to its convolutional and pooling operations, introduces an unbearable computational complexity, requiring hundreds of V100 GPUs in parallel to train, which is impractical and more importantly, such computational resources are inaccessible to many. To overcome this issue, we propose an alternative that does not require pre-training (to avoid a privacy loss) and can well capture complex information on images, as those features from conv-NKTs do, while the computational cost is manageable by a single V100 GPU. To this end, we propose DP-KIP-ScatterNet, which uses the wavelet features from Scattering networks (ScatterNet) instead of those from conv-NTKs, to perform DP-KIP at a reasonable computational cost. We implement DP-KIP-ScatterNet in — computationally efficient — JAX and test on several popular image datasets to show its efficacy and its superior performance compared to state-of-the art methods in image data distillation with differential privacy guarantees.
arxiv情報
著者 | Margarita Vinaroz,Mi Jung Park |
発行日 | 2024-04-22 17:13:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google