DP-Fast MH: Private, Fast, and Accurate Metropolis-Hastings for Large-Scale Bayesian Inference

要約

ベイズ推論は、複雑なデータから学習し、不確実性の下で推論するための原則に基づいたフレームワークを提供します。
医療診断、医薬品設計、政策立案などの機械学習タスクに広く適用されています。
これらの一般的なアプリケーションでは、データは非常に機密性の高いものになる可能性があります。
差分プライバシー (DP) は、強力な最悪の場合のプライバシー保証を備えたデータ分析ツールを提供し、プライバシー保護データ分析における主要なアプローチとして開発されました。
この論文では、差分プライバシーの下での大規模ベイズ推論のための最も基本的な MCMC 法の 1 つである Metropolis-Hastings (MH) を研究します。
既存のほとんどのプライベート MCMC アルゴリズムは、プライバシーを確​​保するために精度と効率を犠牲にしていますが、当社は、ほとんどの反復でデータのミニバッチのみを使用する、最初の正確で高速な DP MH アルゴリズムを提供します。
さらに、プライバシー、スケーラビリティ (つまり、バッチ サイズ)、効率 (つまり、収束率) の間の 3 方向のトレードオフを初めて明らかにし、プライバシーがベイズ推論におけるユーティリティと計算コストにどのような影響を与えるかを理論的に特徴付けます。
私たちは、さまざまな実験でアルゴリズムの有効性と効率性を経験的に実証します。

要約(オリジナル)

Bayesian inference provides a principled framework for learning from complex data and reasoning under uncertainty. It has been widely applied in machine learning tasks such as medical diagnosis, drug design, and policymaking. In these common applications, data can be highly sensitive. Differential privacy (DP) offers data analysis tools with powerful worst-case privacy guarantees and has been developed as the leading approach in privacy-preserving data analysis. In this paper, we study Metropolis-Hastings (MH), one of the most fundamental MCMC methods, for large-scale Bayesian inference under differential privacy. While most existing private MCMC algorithms sacrifice accuracy and efficiency to obtain privacy, we provide the first exact and fast DP MH algorithm, using only a minibatch of data in most iterations. We further reveal, for the first time, a three-way trade-off among privacy, scalability (i.e. the batch size), and efficiency (i.e. the convergence rate), theoretically characterizing how privacy affects the utility and computational cost in Bayesian inference. We empirically demonstrate the effectiveness and efficiency of our algorithm in various experiments.

arxiv情報

著者 Wanrong Zhang,Ruqi Zhang
発行日 2023-06-08 17:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク