On Differentially Private Subspace Estimation in a Distribution-Free Setting

要約

プライベート データ分析は、コストの増加につながる、次元の呪いとして知られる重大な課題に直面しています。
ただし、多くのデータセットは固有の低次元構造を持っています。
たとえば、勾配降下による最適化中、勾配は低次元の部分空間の近くに存在することがよくあります。
少量のポイントを使用して低次元構造をプライベートに識別できれば、高い周囲次元に支払う費用を避けることができます。
マイナス面としては、Dwork、Talwar、Thakurta、および Zhang (STOC 2014) は、一般に、部分空間を非公開で推定するには、次元に対して多項式の依存関係を持つ点の量が必要であることを証明しました。
ただし、その制限は、「簡単な」インスタンスのポイント数を減らす可能性を排除するものではありません。
しかし、このタスクに対して特定のデータセットがどの程度「簡単」であるかを把握する尺度を提供することは困難であることが判明し、以前の研究では適切に対処されていませんでした。
Singhal と Steinke (NeurIPS 2021) の研究に触発され、入力データセット内の乗法特異値ギャップの関数として容易さを定量化する最初の尺度を提供し、新しい上限と下限でそれらをサポートします。
特に、我々の結果は、次元に依存しない点の量で部分空間を推定するのに十分かつ必要な最初のタイプのギャップを決定します。
さらに、実用的なアルゴリズムを使用して上限を実現し、従来のアプローチと比較して高次元領域におけるその利点を実証します。

要約(オリジナル)

Private data analysis faces a significant challenge known as the curse of dimensionality, leading to increased costs. However, many datasets possess an inherent low-dimensional structure. For instance, during optimization via gradient descent, the gradients frequently reside near a low-dimensional subspace. If the low-dimensional structure could be privately identified using a small amount of points, we could avoid paying for the high ambient dimension. On the negative side, Dwork, Talwar, Thakurta, and Zhang (STOC 2014) proved that privately estimating subspaces, in general, requires an amount of points that has a polynomial dependency on the dimension. However, their bound do not rule out the possibility to reduce the number of points for ‘easy” instances. Yet, providing a measure that captures how much a given dataset is ‘easy” for this task turns out to be challenging, and was not properly addressed in prior works. Inspired by the work of Singhal and Steinke (NeurIPS 2021), we provide the first measures that quantify easiness as a function of multiplicative singular-value gaps in the input dataset, and support them with new upper and lower bounds. In particular, our results determine the first type of gap that is sufficient and necessary for estimating a subspace with an amount of points that is independent of the dimension. Furthermore, we realize our upper bounds using a practical algorithm and demonstrate its advantage in high-dimensional regimes compared to prior approaches.

arxiv情報

著者 Eliad Tsfadia
発行日 2024-06-18 15:37:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DS, cs.LG パーマリンク