Accuracy Improvement in Differentially Private Logistic Regression: A Pre-training Approach

要約

機械学習(ML)モデルは学習データセットを記憶することができる。その結果、私的なデータセットを用いてMLモデルを学習することは、個人のプライバシー侵害につながる可能性がある。差分プライバシー(DP)は、基礎となる訓練データセットのプライバシーを保持するための厳密なプライバシー概念である。しかし、DPの枠組みでMLモデルを学習すると、通常、MLモデルの精度が低下する。本稿では、DPロジスティック回帰(LR)の精度を向上させることを目的とする。より詳細には、まず、プライバシーの心配がない公開訓練データセットでLRモデルを事前訓練する。その後、プライベートデータセットを用いてDP-LRモデルを微調整する。数値結果から、事前学習モジュールを追加することで、DP-LRモデルの精度が大幅に向上することがわかる。

要約(オリジナル)

Machine learning (ML) models can memorize training datasets. As a result, training ML models over private datasets can lead to the violation of individuals’ privacy. Differential privacy (DP) is a rigorous privacy notion to preserve the privacy of underlying training datasets. Yet, training ML models in a DP framework usually degrades the accuracy of ML models. This paper aims to boost the accuracy of a DP logistic regression (LR) via a pre-training module. In more detail, we initially pre-train our LR model on a public training dataset that there is no privacy concern about it. Then, we fine-tune our DP-LR model with the private dataset. In the numerical results, we show that adding a pre-training module significantly improves the accuracy of the DP-LR model.

arxiv情報

著者 Mohammad Hoseinpour,Milad Hoseinpour,Ali Aghagolzadeh
発行日 2023-12-04 18:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.LG パーマリンク