Privacy of Noisy Stochastic Gradient Descent: More Iterations without More Privacy Loss

要約

機械学習の中心的な問題は、機密性の高いユーザー データでモデルをトレーニングする方法です。
業界では単純なアルゴリズムが広く採用されています: ノイズを含む確率的勾配降下法 (別名、確率的勾配ランジュバン ダイナミクス)。
ただし、このアルゴリズムのプライバシー損失に関する基本的な理論的疑問は未解決のままです。制限されたドメインでの滑らかな凸面損失という一見単純な設定であってもです。
私たちの主な結果は、これらの問題を解決します。広範囲のパラメーターについて、一定の要因まで差分プライバシーを特徴付けます。
この結果は、この設定の以前のすべての分析が間違った定性的な動作をしていることを示しています。
具体的には、以前のプライバシー分析では反復回数が無限に増加しますが、短いバーンイン期間の後、SGD をより長く実行しても、それ以上プライバシーが漏洩しないことを示しています。
私たちの分析は、最適なトランスポート (つまり、反復によるプライバシー増幅) とサンプリングされたガウス機構 (つまり、サンプリングによるプライバシー増幅) に基づく手法を使用する代わりに、高速ミキシングに基づく以前のアプローチから逸脱しています。
私たちの手法は、他の設定、たとえば、強い凸損失、不均一なステップサイズ、任意のバッチ サイズ、ランダムまたは循環的なバッチの選択に容易に拡張できます。

要約(オリジナル)

A central issue in machine learning is how to train models on sensitive user data. Industry has widely adopted a simple algorithm: Stochastic Gradient Descent with noise (a.k.a. Stochastic Gradient Langevin Dynamics). However, foundational theoretical questions about this algorithm’s privacy loss remain open — even in the seemingly simple setting of smooth convex losses over a bounded domain. Our main result resolves these questions: for a large range of parameters, we characterize the differential privacy up to a constant factor. This result reveals that all previous analyses for this setting have the wrong qualitative behavior. Specifically, while previous privacy analyses increase ad infinitum in the number of iterations, we show that after a small burn-in period, running SGD longer leaks no further privacy. Our analysis departs from previous approaches based on fast mixing, instead using techniques based on optimal transport (namely, Privacy Amplification by Iteration) and the Sampled Gaussian Mechanism (namely, Privacy Amplification by Sampling). Our techniques readily extend to other settings, e.g., strongly convex losses, non-uniform stepsizes, arbitrary batch sizes, and random or cyclic choice of batches.

arxiv情報

著者 Jason M. Altschuler,Kunal Talwar
発行日 2023-02-28 17:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, math.OC, stat.ML パーマリンク