Differential Privacy Meets Neural Network Pruning

要約

ディープ ニューラル ネットワーク モデルのトレーニングに差分プライバシーを適用する際の大きな課題は、スケーラビリティです。広く使用されているトレーニング アルゴリズムである差分プライベート確率的勾配降下法 (DP-SGD) は、中程度のサイズのニューラル ネットワーク モデルをトレーニングするのに苦労します。
高レベルのプライバシー保護。
このホワイト ペーパーでは、DP-SGD のスケーラビリティを向上させるために、ニューラル ネットワークの枝刈りに触発された次元削減のアイデアを探ります。
パラメータ更新の 2 つのモードを通じて、ニューラル ネットワークの枝刈りと差分プライバシーの間の相互作用を研究します。
最初のモードであるパラメーターの凍結を呼び出します。このモードでは、ネットワークを事前にプルーニングし、DP-SGD を使用して残りのパラメーターのみを更新します。
2 番目のモードをパラメーター選択と呼びます。ここでは、トレーニングの各ステップで更新するパラメーターを選択し、DP-SGD を使用して選択したパラメーターのみを更新します。
これらのモードでは、公開データを使用してパラメーターを凍結または選択し、これらの手順で発生するプライバシーの損失を回避します。
当然のことながら、プライベート データとパブリック データの近さは、このパラダイムの成功に重要な役割を果たします。
私たちの実験結果は、パラメーター空間を減らすと、差別化されたプライベートトレーニングがどのように改善されるかを示しています。
さらに、勾配に依存せず、追加のプライバシー損失を引き起こさない 2 つの一般的なプルーニング形式を研究することにより、DP-SGD トレーニングに関しては、ランダム選択が大きさに基づく選択と同等に機能することを示します。

要約(オリジナル)

A major challenge in applying differential privacy to training deep neural network models is scalability.The widely-used training algorithm, differentially private stochastic gradient descent (DP-SGD), struggles with training moderately-sized neural network models for a value of epsilon corresponding to a high level of privacy protection. In this paper, we explore the idea of dimensionality reduction inspired by neural network pruning to improve the scalability of DP-SGD. We study the interplay between neural network pruning and differential privacy, through the two modes of parameter updates. We call the first mode, parameter freezing, where we pre-prune the network and only update the remaining parameters using DP-SGD. We call the second mode, parameter selection, where we select which parameters to update at each step of training and update only those selected using DP-SGD. In these modes, we use public data for freezing or selecting parameters to avoid privacy loss incurring in these steps. Naturally, the closeness between the private and public data plays an important role in the success of this paradigm. Our experimental results demonstrate how decreasing the parameter space improves differentially private training. Moreover, by studying two popular forms of pruning which do not rely on gradients and do not incur an additional privacy loss, we show that random selection performs on par with magnitude-based selection when it comes to DP-SGD training.

arxiv情報

著者 Kamil Adamczewski,Mijung Park
発行日 2023-03-08 14:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク