S-GBDT: Frugal Differentially Private Gradient Boosting Decision Trees

要約

勾配ブースティング決定木 (GBDT) のプライバシー保護学習には、国勢調査データや医療メタデータなどの表形式データのユーティリティとプライバシーの強力なトレードオフが発生する可能性があります。従来の GBDT 学習者は、小規模なデータセットから非線形パターンを抽出できます。
証明可能なプライバシー特性に関する最先端の概念は差分プライバシーです。これは、単一のデータ ポイントの影響が限定的であり、否定可能であることを必要とします。
新しい差分プライベート GBDT 学習器を導入し、ユーティリティとプライバシーのトレードオフを改善するために 4 つの主要な手法を利用します。
(1) 以前の研究と比較して、決定木の葉のプライバシー漏洩をより厳密に考慮した改善されたノイズ スケーリング アプローチを使用します。その結果、$n$ データ ポイントに対して、期待値で $O(1/n)$ でスケールされるノイズが生じます。
(2) 個別の R\’enyi フィルターをメソッドに統合して、反復トレーニング プロセス中に十分に活用されていないデータ ポイントから学習します。これにより、潜在的に独立した関心がもたれ、非依存的な学習ストリームに対する自然かつ効果的な洞察が得られます。
-i.i.d.
データ。
(3) プライバシー予算を学習リーフに集中させるために、ランダムな決定木分割の概念を取り入れています。
(4) プライバシーを強化するためにサブサンプリングを導入します。
私たちの評価では、アワビ データセット ($<4k$ トレーニング データ ポイント) について、$\varepsilon=0.15$ に対して $R^2$ スコアが $0.39$ であることが示されました。これに最も近い以前の研究では $\varepsilon=10.0$ に対してのみ達成されました。 成人データセット ($50k$ のトレーニング データ ポイント) では、$\varepsilon=0.07$ に対して $18.7\,\%$ のテスト エラーを達成しました。これに最も近い以前の研究では、$\varepsilon=1.0$ に対してのみ達成されました。 $\varepsilon=0.54$ の Abalone データセットでは、$R^2$-スコア $0.47$ を達成します。これは、GBDT の非プライベート バージョンの $R^2$-スコア $0.54$ に非常に近いです。 $\varepsilon=0.54$ のアダルト データセットでは、テスト エラー $17.1\,\%$ が得られます。これは、GBDT の非プライベート バージョンのテスト エラー $13.7\,\%$ に非常に近いです。

要約(オリジナル)

Privacy-preserving learning of gradient boosting decision trees (GBDT) has the potential for strong utility-privacy tradeoffs for tabular data, such as census data or medical meta data: classical GBDT learners can extract non-linear patterns from small sized datasets. The state-of-the-art notion for provable privacy-properties is differential privacy, which requires that the impact of single data points is limited and deniable. We introduce a novel differentially private GBDT learner and utilize four main techniques to improve the utility-privacy tradeoff. (1) We use an improved noise scaling approach with tighter accounting of privacy leakage of a decision tree leaf compared to prior work, resulting in noise that in expectation scales with $O(1/n)$, for $n$ data points. (2) We integrate individual R\’enyi filters to our method to learn from data points that have been underutilized during an iterative training process, which — potentially of independent interest — results in a natural yet effective insight to learning streams of non-i.i.d. data. (3) We incorporate the concept of random decision tree splits to concentrate privacy budget on learning leaves. (4) We deploy subsampling for privacy amplification. Our evaluation shows for the Abalone dataset ($<4k$ training data points) a $R^2$-score of $0.39$ for $\varepsilon=0.15$, which the closest prior work only achieved for $\varepsilon=10.0$. On the Adult dataset ($50k$ training data points) we achieve test error of $18.7\,\%$ for $\varepsilon=0.07$ which the closest prior work only achieved for $\varepsilon=1.0$. For the Abalone dataset for $\varepsilon=0.54$ we achieve $R^2$-score of $0.47$ which is very close to the $R^2$-score of $0.54$ for the nonprivate version of GBDT. For the Adult dataset for $\varepsilon=0.54$ we achieve test error $17.1\,\%$ which is very close to the test error $13.7\,\%$ of the nonprivate version of GBDT.

arxiv情報

著者 Moritz Kirschte,Thorsten Peinemann,Joshua Stock,Carlos Cotrini,Esfandiar Mohammadi
発行日 2023-09-28 17:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク