Bridging Distributional and Risk-sensitive Reinforcement Learning with Provable Regret Bounds

要約

私たちは、分布強化学習 (DRL) 手法によるリスク敏感強化学習 (RSRL) の後悔保証を研究します。
特に、リターンのエントロピーリスク尺度(EntRM)を目的とする有限エピソードマルコフ決定プロセスを検討します。
EntRM の重要な特性である独立性を活用することで、リスクに敏感な分散動的プログラミング フレームワークを確立します。
次に、モデルフリー スキームとモデルベース スキームを含む 2 つの異なるスキームを通じて楽観主義を実装する 2 つの新しい DRL アルゴリズムを提案します。
両方とも $\tilde{\mathcal{O}}(\frac{\exp(|\beta| H)-1}{|\beta|}H\sqrt{S^2AK})$ 後悔上限を達成することを証明します
ここで、$S$、$A$、$K$、$H$ はそれぞれ状態、アクション、エピソード、および時間軸の数を表します。
\cite{fei2021exponential} で提案されている RSVI2 と新しい分布分析を組み合わせたものです。
私たちの知る限り、これはサンプルの複雑さの点で DRL と RSRL の橋渡しとなる最初のリグアロング分析です。
モデルフリー DRL アルゴリズムに関連する計算効率の悪さを認識し、分布表現を使用した代替 DRL アルゴリズムを提案します。
このアプローチは、確立されたリグレス限界を維持するだけでなく、計算効率も大幅に向上します。
また、$\beta>0$ の場合の $\Omega(\frac{\exp(\beta H/6)-1}{\beta H}H\sqrt{SAT})$ のより厳しいミニマックス下限も証明します。
、リスク中立設定で厳しい下限 $\Omega(H\sqrt{SAT})$ を回復します。

要約(オリジナル)

We study the regret guarantee for risk-sensitive reinforcement learning (RSRL) via distributional reinforcement learning (DRL) methods. In particular, we consider finite episodic Markov decision processes whose objective is the entropic risk measure (EntRM) of return. By leveraging a key property of the EntRM, the independence property, we establish the risk-sensitive distributional dynamic programming framework. We then propose two novel DRL algorithms that implement optimism through two different schemes, including a model-free one and a model-based one. We prove that they both attain $\tilde{\mathcal{O}}(\frac{\exp(|\beta| H)-1}{|\beta|}H\sqrt{S^2AK})$ regret upper bound, where $S$, $A$, $K$, and $H$ represent the number of states, actions, episodes, and the time horizon, respectively. It matches RSVI2 proposed in \cite{fei2021exponential}, with novel distributional analysis. To the best of our knowledge, this is the first regret analysis that bridges DRL and RSRL in terms of sample complexity. Acknowledging the computational inefficiency associated with the model-free DRL algorithm, we propose an alternative DRL algorithm with distribution representation. This approach not only maintains the established regret bounds but also significantly amplifies computational efficiency. We also prove a tighter minimax lower bound of $\Omega(\frac{\exp(\beta H/6)-1}{\beta H}H\sqrt{SAT})$ for the $\beta>0$ case, which recovers the tight lower bound $\Omega(H\sqrt{SAT})$ in the risk-neutral setting.

arxiv情報

著者 Hao Liang,Zhi-Quan Luo
発行日 2024-01-25 13:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク