要約
本論文では、微分プライバシー(DP)の制約の下、重い尾を引く報酬を持つ(有限の)マルコフ決定過程(MDP)の問題を研究する。これまでの私的強化学習の研究では、DPを保証するために報酬がある有界または亜ガウス分布からサンプリングされることが一般的であったが、我々は報酬分布がある$v \in (0,1]$ で有限の$(1+v)$番目の瞬間のみを持つ設定を考慮する。報酬のロバスト平均推定に頼ることで、我々はまず、重い尾を持つMDPのための2つの枠組みを提案する、すなわち、一つは値反復のため、もう一つは政策最適化のためである。それぞれのフレームワークにおいて、JDP(joint differential privacy)とLDP(local differential privacy)の両モデルを検討する。また、分配のモーメントとプライバシーバジェットの両方が後悔に大きな影響を与えることを示す。最後に、JDPモデルにおける重尾翼MDPの後悔最小化の下界を、DPモデルにおける重尾翼多腕バンディットのインスタンス非依存下界に還元して確立する。また、LDPにおけるこの問題の下界を、いくつかの私的ミニマックス法を採用することで示す。その結果、サブガウス型報酬を持つ私的RLの問題と重尾翼型報酬を持つ私的RLの問題には根本的な違いがあることがわかった。
要約(オリジナル)
In this paper, we study the problem of (finite horizon tabular) Markov decision processes (MDPs) with heavy-tailed rewards under the constraint of differential privacy (DP). Compared with the previous studies for private reinforcement learning that typically assume rewards are sampled from some bounded or sub-Gaussian distributions to ensure DP, we consider the setting where reward distributions have only finite $(1+v)$-th moments with some $v \in (0,1]$. By resorting to robust mean estimators for rewards, we first propose two frameworks for heavy-tailed MDPs, i.e., one is for value iteration and another is for policy optimization. Under each framework, we consider both joint differential privacy (JDP) and local differential privacy (LDP) models. Based on our frameworks, we provide regret upper bounds for both JDP and LDP cases and show that the moment of distribution and privacy budget both have significant impacts on regrets. Finally, we establish a lower bound of regret minimization for heavy-tailed MDPs in JDP model by reducing it to the instance-independent lower bound of heavy-tailed multi-armed bandits in DP model. We also show the lower bound for the problem in LDP by adopting some private minimax methods. Our results reveal that there are fundamental differences between the problem of private RL with sub-Gaussian and that with heavy-tailed rewards.
arxiv情報
| 著者 | Yulian Wu,Xingyu Zhou,Sayak Ray Chowdhury,Di Wang |
| 発行日 | 2023-06-05 13:45:21+00:00 |
| arxivサイト | arxiv_id(pdf) |