要約
この論文では、$ \ ell_p $幾何学の下で確率的凸最適化(SCO)における正確な学習のためのトレーサビリティの必要性を調査します。
非公式には、学習アルゴリズムは、その出力を分析することにより、トレーニングサンプルの少なくとも$ M $を識別できる場合、$ M $ traceableであると言います。
私たちの主な結果は、SCOのトレーサビリティと過剰なリスクとの根本的なトレードオフを明らかにしています。
$ p \ in [1、\ infty)$ごとに、すべてのサンプル効率の高い学習者がトレーニングサンプルの一定の部分であるサンプルの数で追跡可能な過剰なリスクしきい値の存在を確立します。
$ p \ in [1,2] $の場合、このしきい値は、差次的にプライベートな(DP)アルゴリズムの最良のリスク、つまりこのしきい値の上に一致します。
$ p \ in(2、\ infty)$の場合、このしきい値は代わりにDP学習の新しい下限を与え、このセットアップでオープンな問題を部分的に閉じます。
これらの結果を確立する途中で、私たちは、コミュニティにとって独立した関心のあるフィンガープリントレマのまばらなバリアントを証明します。
要約(オリジナル)
In this paper, we investigate the necessity of traceability for accurate learning in stochastic convex optimization (SCO) under $\ell_p$ geometries. Informally, we say a learning algorithm is $m$-traceable if, by analyzing its output, it is possible to identify at least $m$ of its training samples. Our main results uncover a fundamental tradeoff between traceability and excess risk in SCO. For every $p\in [1,\infty)$, we establish the existence of an excess risk threshold below which every sample-efficient learner is traceable with the number of samples which is a constant fraction of its training sample. For $p\in [1,2]$, this threshold coincides with the best excess risk of differentially private (DP) algorithms, i.e., above this threshold, there exist algorithms that are not traceable, which corresponds to a sharp phase transition. For $p \in (2,\infty)$, this threshold instead gives novel lower bounds for DP learning, partially closing an open problem in this setup. En route to establishing these results, we prove a sparse variant of the fingerprinting lemma, which is of independent interest to the community.
arxiv情報
著者 | Sasha Voitovych,Mahdi Haghifam,Idan Attias,Gintare Karolina Dziugaite,Roi Livni,Daniel M. Roy |
発行日 | 2025-05-30 16:36:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google