How to DP-fy ML: A Practical Guide to Machine Learning with Differential Privacy

要約

ML モデルは、実世界のアプリケーションで広く使用されており、常に研究の焦点となっています。
同時に、コミュニティは ML トレーニング データのプライバシーを保護することの重要性を認識し始めています。
差分プライバシー (DP) は、データの匿名化に関する正式な声明を作成するためのゴールド スタンダードになりました。
ただし、業界では DP の採用がある程度行われていますが、実際の複雑な ML モデルに DP を適用する試みはまだほとんどありません。
DP の採用は、DP 保護が何を伴うか、どのようなプライバシー保証を目指すべきか、および ML モデルの適切なプライバシー-ユーティリティ-計算のトレードオフを達成することの難しさに関する限られた実用的なガイダンスによって妨げられています。
パフォーマンスを調整して最大化するためのトリックは、論文に散らばっているか、実践者の頭の中に保存されています。
さらに、文献は、アーキテクチャの調整を適用する方法と適用するかどうか、およびどのコンポーネントを DP で使用しても「安全」であるかについて、相反する証拠を提示しているようです。
この作業は自己完結型のガイドであり、DP ML の分野の詳細な概要を示し、厳密なプライバシー保証を備えた可能な限り最高の DP ML モデルを達成するための情報を提示します。
私たちの対象読者は、研究者と実務家の両方です。
DP for ML に関心のある研究者は、現在の進歩と改善領域の明確な概要から恩恵を受けるでしょう。
プライバシー会計とその仮定、および収束などの重要なトピックを強調する理論に焦点を当てたセクションが含まれています。
実践者向けに、DP 理論の背景と、適切なプライバシーの定義とアプローチの選択、DP トレーニングの実装、モデル アーキテクチャの潜在的な更新、およびハイパーパラメーターの調整に関する明確なステップバイステップ ガイドを提供します。
研究者と実践者の両方にとって、プライバシーの保証を一貫して完全に報告することが重要であるため、保証を述べるための一連の具体的なベスト プラクティスを提案します。

要約(オリジナル)

ML models are ubiquitous in real world applications and are a constant focus of research. At the same time, the community has started to realize the importance of protecting the privacy of ML training data. Differential Privacy (DP) has become a gold standard for making formal statements about data anonymization. However, while some adoption of DP has happened in industry, attempts to apply DP to real world complex ML models are still few and far between. The adoption of DP is hindered by limited practical guidance of what DP protection entails, what privacy guarantees to aim for, and the difficulty of achieving good privacy-utility-computation trade-offs for ML models. Tricks for tuning and maximizing performance are scattered among papers or stored in the heads of practitioners. Furthermore, the literature seems to present conflicting evidence on how and whether to apply architectural adjustments and which components are “safe” to use with DP. This work is a self-contained guide that gives an in-depth overview of the field of DP ML and presents information about achieving the best possible DP ML model with rigorous privacy guarantees. Our target audience is both researchers and practitioners. Researchers interested in DP for ML will benefit from a clear overview of current advances and areas for improvement. We include theory-focused sections that highlight important topics such as privacy accounting and its assumptions, and convergence. For a practitioner, we provide a background in DP theory and a clear step-by-step guide for choosing an appropriate privacy definition and approach, implementing DP training, potentially updating the model architecture, and tuning hyperparameters. For both researchers and practitioners, consistently and fully reporting privacy guarantees is critical, and so we propose a set of specific best practices for stating guarantees.

arxiv情報

著者 Natalia Ponomareva,Hussein Hazimeh,Alex Kurakin,Zheng Xu,Carson Denison,H. Brendan McMahan,Sergei Vassilvitskii,Steve Chien,Abhradeep Thakurta
発行日 2023-03-01 16:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML パーマリンク