On rate-optimal classification from non-private and from private data

要約

この論文では、分類の古典的な問題を再検討しますが、プライバシーの制約を課します。
このような制約の下では、生データ $(X_1,Y_1),\ldots,(X_n,Y_n)$ を直接観察することはできず、すべての分類子は、適切なローカル差分プライバシー メカニズムのランダム化された結果の関数となります。
統計学者はこのプライバシー メカニズムの形式を自由に選択できます。ここでは、各特徴ベクトル $X_i$ の位置の離散化とそのラベル $Y_i$ にラプラス分布ノイズを追加します。
分類ルールは、よく研究された分割分類ルールの民営化バージョンです。
標準のリプシッツ条件とマージン条件に加えて、非プライベート データとプライベート データの両方について、分類エラー確率の正確な収束率が計算される新しい特性が導入されています。

要約(オリジナル)

In this paper we revisit the classical problem of classification, but impose privacy constraints. Under such constraints, the raw data $(X_1,Y_1),\ldots,(X_n,Y_n)$ cannot be directly observed, and all classifiers are functions of the randomised outcome of a suitable local differential privacy mechanism. The statistician is free to choose the form of this privacy mechanism, and here we add Laplace distributed noise to a discretisation of the location of each feature vector $X_i$ and to its label $Y_i$. The classification rule is the privatized version of the well-studied partitioning classification rule. In addition to the standard Lipschitz and margin conditions, a novel characteristic is introduced, by which the exact rate of convergence of the classification error probability is calculated, both for non-private and private data.

arxiv情報

著者 Balázs Csanád Csáji,László Györfi,Ambrus Tamás
発行日 2023-12-22 18:07:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, math.ST, stat.ML, stat.TH パーマリンク