Differentially Private Heavy Hitter Detection using Federated Analytics

要約

この研究では、差分プライベートヘビーヒッター検出のためのプレフィックスツリーベースのアルゴリズムのパフォーマンスを向上させる実践的なヒューリスティックを研究します。
私たちのモデルは、各ユーザーが複数のデータ ポイントを持っていることを前提としており、目標は、集約およびローカルの差分プライバシーを使用して、すべてのユーザーのデータにわたって最も頻繁に使用されるデータ ポイントをできるだけ多く学習することです。
計算、通信、プライバシーの制約を満たしながらアルゴリズムのパフォーマンスを向上させる適応型ハイパーパラメータ調整アルゴリズムを提案します。
さまざまなデータ選択スキームの影響と、アルゴリズムを複数回実行する際の拒否リストの導入の影響を調査します。
私たちは、最も頻繁に使用される単語を学習するタスクに関する Reddit データセット~\cite{caldas2018leaf} で広範な実験を使用して、これらの改善をテストします。

要約(オリジナル)

In this work, we study practical heuristics to improve the performance of prefix-tree based algorithms for differentially private heavy hitter detection. Our model assumes each user has multiple data points and the goal is to learn as many of the most frequent data points as possible across all users’ data with aggregate and local differential privacy. We propose an adaptive hyperparameter tuning algorithm that improves the performance of the algorithm while satisfying computational, communication and privacy constraints. We explore the impact of different data-selection schemes as well as the impact of introducing deny lists during multiple runs of the algorithm. We test these improvements using extensive experimentation on the Reddit dataset~\cite{caldas2018leaf} on the task of learning the most frequent words.

arxiv情報

著者 Karan Chadha,Junye Chen,John Duchi,Vitaly Feldman,Hanieh Hashemi,Omid Javidbakht,Audra McMillan,Kunal Talwar
発行日 2023-07-21 17:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク