Differentially Private Worst-group Risk Minimization

要約

$(\epsilon, \delta)$-差分プライバシー (DP) の下で最悪グループのリスクを最小化するための体系的な研究を開始します。
目標は、異なる分布を持つ $p$ 部分母集団 (グループ) 全体で最大リスクをほぼ最小化するモデルを非公開で見つけることであり、各グループ分布はサンプル オラクルを介してアクセスされます。
最初に、$\tilde{O}(\frac{p\sqrt{d}}{K\epsilon} + \sqrt{\frac{p}{K}} の超過最悪グループ集団リスクを達成する新しいアルゴリズムを提示します。
)$、ここで $K$ はすべてのグループから抽出されたサンプルの総数、$d$ は問題の次元です。
サイズ $K/p$ の固定サイズのデータ​​セットを介して各分布が観察される場合、レートはほぼ最適になります。
私たちの結果は、汎化誤差に対する新しい安定性ベースの分析に基づいています。
特に、$\Delta$-uniform 引数の安定性は $\tilde{O}(\Delta + \frac{1}{\sqrt{n}})$ 一般化誤差を意味することを示します。
最悪のグループのリスク。$n$ は各サンプル オラクルから抽出されたサンプルの数です。
次に、任意の DP オンライン凸最適化アルゴリズムをサブルーチンとして使用して、最悪グループの集団リスクを最小化するためのアルゴリズム フレームワークを提案します。
したがって、$\tilde{O}\left( \sqrt{\frac{d^{1/2}}{\epsilon K}} +\sqrt{\frac{p}{K\ という別の超過リスク限界を与えます。
epsilon^2}} \right)$。
$\epsilon=\Theta(1)$ の典型的な設定を仮定すると、この限界は、$K$ と $d$ の関数としての $p$ の特定の範囲における最初の限界よりも有利です。
最後に、各グループの分布が固定サイズのデータ​​セットによって観察される、オフライン設定における差分プライベート最悪グループの経験的リスク最小化を研究します。
ほぼ最適な超過リスク $\tilde{O}(\frac{p\sqrt{d}}{K\epsilon})$ を持つ新しいアルゴリズムを提案します。

要約(オリジナル)

We initiate a systematic study of worst-group risk minimization under $(\epsilon, \delta)$-differential privacy (DP). The goal is to privately find a model that approximately minimizes the maximal risk across $p$ sub-populations (groups) with different distributions, where each group distribution is accessed via a sample oracle. We first present a new algorithm that achieves excess worst-group population risk of $\tilde{O}(\frac{p\sqrt{d}}{K\epsilon} + \sqrt{\frac{p}{K}})$, where $K$ is the total number of samples drawn from all groups and $d$ is the problem dimension. Our rate is nearly optimal when each distribution is observed via a fixed-size dataset of size $K/p$. Our result is based on a new stability-based analysis for the generalization error. In particular, we show that $\Delta$-uniform argument stability implies $\tilde{O}(\Delta + \frac{1}{\sqrt{n}})$ generalization error w.r.t. the worst-group risk, where $n$ is the number of samples drawn from each sample oracle. Next, we propose an algorithmic framework for worst-group population risk minimization using any DP online convex optimization algorithm as a subroutine. Hence, we give another excess risk bound of $\tilde{O}\left( \sqrt{\frac{d^{1/2}}{\epsilon K}} +\sqrt{\frac{p}{K\epsilon^2}} \right)$. Assuming the typical setting of $\epsilon=\Theta(1)$, this bound is more favorable than our first bound in a certain range of $p$ as a function of $K$ and $d$. Finally, we study differentially private worst-group empirical risk minimization in the offline setting, where each group distribution is observed by a fixed-size dataset. We present a new algorithm with nearly optimal excess risk of $\tilde{O}(\frac{p\sqrt{d}}{K\epsilon})$.

arxiv情報

著者 Xinyu Zhou,Raef Bassily
発行日 2024-02-29 18:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク