On the Dichotomy Between Privacy and Traceability in $\ell_p$ Stochastic Convex Optimization


この論文では、$ \ ell_p $ geometriesの下で、確率的凸最適化(SCO)における暗記の必要性を調査します。
非公式には、学習アルゴリズムは、出力を分析することにより、トレーニングサンプルの少なくとも$ M $を識別することができる場合、$ M $サンプル(または$ m $ traceable)を記憶すると言います。
[1、\ infty)$ごとに、サンプル効率の高い学習者がサンプルの\ em {dancret fraction}を記憶する必要があるリスクしきい値の存在を確立します。
$ p \ in [1,2] $の場合、このしきい値は、差次的にプライベートな(DP)アルゴリズムの最良のリスクと一致します。つまり、このしきい値を超えて、単一のサンプルを記憶しないアルゴリズムがあります。
これにより、プライバシーと$ p \ in [1,2] $のトレーサビリティの間に鋭い二分法が確立されます。
$ p \ in(2、\ infty)$の場合、このしきい値は代わりにDP学習の新しい下限を与え、このセットアップでオープンな問題を部分的に閉じます。


In this paper, we investigate the necessity of memorization in stochastic convex optimization (SCO) under $\ell_p$ geometries. Informally, we say a learning algorithm memorizes $m$ samples (or is $m$-traceable) if, by analyzing its output, it is possible to identify at least $m$ of its training samples. Our main results uncover a fundamental tradeoff between traceability and excess risk in SCO. For every $p\in [1,\infty)$, we establish the existence of a risk threshold below which any sample-efficient learner must memorize a \em{constant fraction} of its sample. For $p\in [1,2]$, this threshold coincides with best risk of differentially private (DP) algorithms, i.e., above this threshold, there are algorithms that do not memorize even a single sample. This establishes a sharp dichotomy between privacy and traceability for $p \in [1,2]$. For $p \in (2,\infty)$, this threshold instead gives novel lower bounds for DP learning, partially closing an open problem in this setup. En route of proving these results, we introduce a complexity notion we term \em{trace value} of a problem, which unifies privacy lower bounds and traceability results, and prove a sparse variant of the fingerprinting lemma.


著者 Sasha Voitovych,Mahdi Haghifam,Idan Attias,Gintare Karolina Dziugaite,Roi Livni,Daniel M. Roy
発行日 2025-02-24 18:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

