要約
Bandits は、逐次学習の理論的基盤および最新のレコメンダー システムのアルゴリズム基盤として機能します。
ただし、レコメンダー システムはユーザーの機密データに依存することが多く、プライバシーが重大な懸念事項となります。
この文書は、信頼できる集中型意思決定者による盗賊における差分プライバシー (DP) の理解、特に集中差分プライバシー (zCDP) をゼロにすることの意味についての理解に貢献します。
まず、考慮された入力と対話プロトコルに応じて、盗賊に対する DP のさまざまな適応を形式化し、比較します。
次に、有限武装バンディット、線形バンディット、および線形コンテキスト バンディットという 3 つのバンディット設定に対して、3 つのプライベート アルゴリズム、つまり AdaC-UCB、AdaC-GOPE、および AdaC-OFUL を提案します。
3 つのアルゴリズムは、プライバシーとユーティリティの適切なトレードオフを確保するために、一般的なアルゴリズムの青写真、つまりガウス メカニズムと適応エピソードを共有しています。
これら 3 つのアルゴリズムの後悔を分析し、上限を定めます。
私たちの分析によると、これらすべての環境において、zCDP を押し付けることによる代償は、プライバシーを無視したことで生じる後悔に比べれば (漸近的に) 無視できるほど小さいことがわかります。
次に、zCDP を使用したバンディットのリグレスの最初のミニマックス下限でリグレスの上限を補完します。
下限を証明するために、結合と最適な輸送に基づいた新しい証明手法を精緻化しました。
最後に、盗賊の 3 つの異なる設定に対する理論的結果を実験的に検証します。
要約(オリジナル)
Bandits serve as the theoretical foundation of sequential learning and an algorithmic foundation of modern recommender systems. However, recommender systems often rely on user-sensitive data, making privacy a critical concern. This paper contributes to the understanding of Differential Privacy (DP) in bandits with a trusted centralised decision-maker, and especially the implications of ensuring zero Concentrated Differential Privacy (zCDP). First, we formalise and compare different adaptations of DP to bandits, depending on the considered input and the interaction protocol. Then, we propose three private algorithms, namely AdaC-UCB, AdaC-GOPE and AdaC-OFUL, for three bandit settings, namely finite-armed bandits, linear bandits, and linear contextual bandits. The three algorithms share a generic algorithmic blueprint, i.e. the Gaussian mechanism and adaptive episodes, to ensure a good privacy-utility trade-off. We analyse and upper bound the regret of these three algorithms. Our analysis shows that in all of these settings, the prices of imposing zCDP are (asymptotically) negligible in comparison with the regrets incurred oblivious to privacy. Next, we complement our regret upper bounds with the first minimax lower bounds on the regret of bandits with zCDP. To prove the lower bounds, we elaborate a new proof technique based on couplings and optimal transport. We conclude by experimentally validating our theoretical results for the three different settings of bandits.
arxiv情報
著者 | Achraf Azize,Debabrota Basu |
発行日 | 2024-02-15 17:44:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google