要約
私たちはリスクに敏感な強化学習 (RL) を研究しており、固定リスク許容度 $\tau$ で条件付きリスク値 (CVaR) を最大化することを目指しています。
リスクに敏感な RL を研究するこれまでの理論的研究は、表形式のマルコフ決定プロセス (MDP) 設定に焦点を当てていました。
CVaR RL を状態空間が大きい設定に拡張するには、関数近似を導入する必要があります。
非線形関数近似を使用して、低ランク MDP の CVaR RL を研究します。
低ランク MDP は、基礎となる遷移カーネルが低ランク分解を許容すると仮定しますが、以前の線形モデルとは異なり、低ランク MDP は特徴または状態アクション表現が既知であると仮定しません。
我々は、CVaR RL における探索、活用、表現学習の間の相互作用のバランスを注意深く取るための、新しい上限信頼限界 (UCB) ボーナス駆動アルゴリズムを提案します。
私たちのアルゴリズムが $\tilde{O}\left(\frac{H^7 A^2 d^4}{\tau^2 \epsilon^2}\right)$ のサンプル複雑度を達成して $ を生成することを証明します。
\epsilon$-optimal CVaR。$H$ は各エピソードの長さ、$A$ はアクション スペースの容量、$d$ は表現の次元です。
計算に関しては、計画オラクルとして CVaR 目標用の新しい離散化最小二乗値反復 (LSVI) アルゴリズムを設計し、最尤推定オラクルを使用して多項式の実行時間内で最適に近いポリシーを見つけることができることを示します。
私たちの知る限り、これは低ランク MDP で効率的であることが証明された最初の CVaR RL アルゴリズムです。
要約(オリジナル)
We study risk-sensitive Reinforcement Learning (RL), where we aim to maximize the Conditional Value at Risk (CVaR) with a fixed risk tolerance $\tau$. Prior theoretical work studying risk-sensitive RL focuses on the tabular Markov Decision Processes (MDPs) setting. To extend CVaR RL to settings where state space is large, function approximation must be deployed. We study CVaR RL in low-rank MDPs with nonlinear function approximation. Low-rank MDPs assume the underlying transition kernel admits a low-rank decomposition, but unlike prior linear models, low-rank MDPs do not assume the feature or state-action representation is known. We propose a novel Upper Confidence Bound (UCB) bonus-driven algorithm to carefully balance the interplay between exploration, exploitation, and representation learning in CVaR RL. We prove that our algorithm achieves a sample complexity of $\tilde{O}\left(\frac{H^7 A^2 d^4}{\tau^2 \epsilon^2}\right)$ to yield an $\epsilon$-optimal CVaR, where $H$ is the length of each episode, $A$ is the capacity of action space, and $d$ is the dimension of representations. Computational-wise, we design a novel discretized Least-Squares Value Iteration (LSVI) algorithm for the CVaR objective as the planning oracle and show that we can find the near-optimal policy in a polynomial running time with a Maximum Likelihood Estimation oracle. To our knowledge, this is the first provably efficient CVaR RL algorithm in low-rank MDPs.
arxiv情報
著者 | Yulai Zhao,Wenhao Zhan,Xiaoyan Hu,Ho-fung Leung,Farzan Farnia,Wen Sun,Jason D. Lee |
発行日 | 2023-11-20 17:44:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google