Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients

要約

強化学習技術が現実世界の意思決定問題に適用されることが増えているため、これらのアルゴリズムが潜在的に機密情報をどのように使用するかに注目が集まっています。
私たちは、アクションを通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化するポリシーをトレーニングするタスクを検討します。
この設定が、逐次的な意思決定におけるプライバシーにおける現実世界の問題をどのようにカバーするかの例を示します。
我々は、機密状態とアクションの間の相互情報量 (MI) に基づく正則化子を導入することにより、ポリシー勾配フレームワークでこの問題を解決します。
プライバシーに制約のあるポリシーを最適化するためのモデルベースの確率的勾配推定器を開発します。
また、メインの MI 正規化器の上限として機能し、モデルフリー設定で最適化できる代替の MI 正規化器と、微分可能なダイナミクスを持つ環境で使用できる強力な直接推定器についても説明します。
私たちは、差分プライベート RL における以前の研究を、情報開示の相互情報定式化と対比します。
実験結果は、私たちのトレーニング方法が、困難な高次元のタスクであっても、敏感な状態を隠すポリシーをもたらすことを示しています。

要約(オリジナル)

As reinforcement learning techniques are increasingly applied to real-world decision problems, attention has turned to how these algorithms use potentially sensitive information. We consider the task of training a policy that maximizes reward while minimizing disclosure of certain sensitive state variables through the actions. We give examples of how this setting covers real-world problems in privacy for sequential decision-making. We solve this problem in the policy gradients framework by introducing a regularizer based on the mutual information (MI) between the sensitive state and the actions. We develop a model-based stochastic gradient estimator for optimization of privacy-constrained policies. We also discuss an alternative MI regularizer that serves as an upper bound to our main MI regularizer and can be optimized in a model-free setting, and a powerful direct estimator that can be used in an environment with differentiable dynamics. We contrast previous work in differentially-private RL to our mutual-information formulation of information disclosure. Experimental results show that our training method results in policies that hide the sensitive state, even in challenging high-dimensional tasks.

arxiv情報

著者 Chris Cundy,Rishi Desai,Stefano Ermon
発行日 2024-04-16 17:27:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク