Privacy Preserving Reinforcement Learning for Population Processes

要約

私たちは、集団プロセス上で動作する強化学習 (RL) アルゴリズムにおけるプライバシー保護の問題を検討します。このアルゴリズムは、動的に相互作用する個人の大規模な集団における伝染病の制御など、実用的ではあるものの十分に研究されていない設定です。
この設定では、RL アルゴリズムは、母集団レベルの統計を状態として受け取り、各タイム ステップで母集団全体に影響を与える可能性のあるアクションを実行することにより、$T$ タイム ステップにわたって母集団と対話します。
個人のデータは複数のやり取りにわたって収集される可能性があるため、プライバシーは常に保護されなければなりません。
私たちは、Puffish Privacy 分析を通じて、人口プロセスにおける相関データの存在下における差分プライバシー (DP) のベイジアン セマンティクスを明らかにします。
次に、任意の RL アルゴリズムを入力として受け取り、差分プライベートにすることができるメタ アルゴリズムを提供します。
これは、DP メカニズムを使用して、RL アルゴリズムが入力として信号を受け取る前に、各タイム ステップで状態信号と報酬信号をプライベート化するアプローチを採用することで実現されます。
私たちの主な理論的結果は、標準的な RL アルゴリズムを民営化国家に直接適用した場合の値関数近似誤差は、人口規模とプライバシー予算が増加するにつれて急速に縮小することを示しています。
これは、ポピュレーション プロセスにおける差分プライベート RL アルゴリズムでは、プライバシーとユーティリティの合理的なトレードオフが可能であることを強調しています。
私たちの理論的発見は、大規模な人口規模でシミュレートされた疫病制御問題に対して実行された実験によって検証されています。

要約(オリジナル)

We consider the problem of privacy protection in Reinforcement Learning (RL) algorithms that operate over population processes, a practical but understudied setting that includes, for example, the control of epidemics in large populations of dynamically interacting individuals. In this setting, the RL algorithm interacts with the population over $T$ time steps by receiving population-level statistics as state and performing actions which can affect the entire population at each time step. An individual’s data can be collected across multiple interactions and their privacy must be protected at all times. We clarify the Bayesian semantics of Differential Privacy (DP) in the presence of correlated data in population processes through a Pufferfish Privacy analysis. We then give a meta algorithm that can take any RL algorithm as input and make it differentially private. This is achieved by taking an approach that uses DP mechanisms to privatize the state and reward signal at each time step before the RL algorithm receives them as input. Our main theoretical result shows that the value-function approximation error when applying standard RL algorithms directly to the privatized states shrinks quickly as the population size and privacy budget increase. This highlights that reasonable privacy-utility trade-offs are possible for differentially private RL algorithms in population processes. Our theoretical findings are validated by experiments performed on a simulated epidemic control problem over large population sizes.

arxiv情報

著者 Samuel Yang-Zhao,Kee Siong Ng
発行日 2024-06-25 15:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク