Differentially Private Non-convex Learning for Multi-layer Neural Networks

要約

この論文では、単一の出力ノードを持つ (多層) 完全接続ニューラル ネットワークに対する差分プライベート確率最適化の問題に焦点を当てます。
最初の部分では、特に一般化線形モデル (GLM) に焦点を当てて、隠れノードがないケースを検討します。
ランダム ノイズがゼロ平均を持ち、リンク関数が有界かつリプシッツ連続である、明確に特異的なモデルを調査します。
私たちはいくつかのアルゴリズムを提案し、私たちの分析は、データ次元に対して不変のままの過剰人口リスクを達成する実現可能性を実証しています。
また、ReLU リンク関数に関連するシナリオも詳しく調査しており、その結果は有界リンク関数の結果を反映しています。
ReLU 回帰を代表例として使用し、適切に指定されたモデルと誤って指定されたモデルを対比してこのセクションを締めくくります。
論文の後半では、明確に指定されたモデルでシグモイドまたは ReLU 活性化関数を備えた 2 層ニューラル ネットワークにアイデアを拡張します。
3 番目の部分では、Abadi らの DP-SGD の理論的保証について研究します。
(2016) 完全に接続された多層ニューラル ネットワークについて。
ニューラル タンジェント カーネル理論の最近の進歩を利用することで、サンプル サイズとネットワークの幅の両方が十分に大きい場合に、最初の過剰集団リスクを提供します。
さらに、理論的および経験的な両方で、DP-SGD のいくつかのパラメーターの有用性についてその役割について説明します。

要約(オリジナル)

This paper focuses on the problem of Differentially Private Stochastic Optimization for (multi-layer) fully connected neural networks with a single output node. In the first part, we examine cases with no hidden nodes, specifically focusing on Generalized Linear Models (GLMs). We investigate the well-specific model where the random noise possesses a zero mean, and the link function is both bounded and Lipschitz continuous. We propose several algorithms and our analysis demonstrates the feasibility of achieving an excess population risk that remains invariant to the data dimension. We also delve into the scenario involving the ReLU link function, and our findings mirror those of the bounded link function. We conclude this section by contrasting well-specified and misspecified models, using ReLU regression as a representative example. In the second part of the paper, we extend our ideas to two-layer neural networks with sigmoid or ReLU activation functions in the well-specified model. In the third part, we study the theoretical guarantees of DP-SGD in Abadi et al. (2016) for fully connected multi-layer neural networks. By utilizing recent advances in Neural Tangent Kernel theory, we provide the first excess population risk when both the sample size and the width of the network are sufficiently large. Additionally, we discuss the role of some parameters in DP-SGD regarding their utility, both theoretically and empirically.

arxiv情報

著者 Hanpu Shen,Cheng-Long Wang,Zihang Xiang,Yiming Ying,Di Wang
発行日 2023-10-12 15:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML パーマリンク