Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret

要約

量子強化学習 (RL) は最近急速に注目を集めていますが、その理論的な理解は限られています。
特に、探査と悪用のトレードオフに対処できる、証明されている効率的な量子 RL アルゴリズムを設計する方法は依然としてわかりにくいです。
この目的を達成するために、$S$ 状態、$A$ アクション、およびホライズン $H$ を含む表形式のマルコフ決定プロセス (MDP) に対して量子コンピューティングを利用する新しい UCRL スタイルのアルゴリズムを提案し、 $\mathcal{
O}(\mathrm{poly}(S, A, H, \log T))$ 最悪の場合の後悔。$T$ はエピソード数です。
さらに、結果を線形関数近似を使用して量子 RL に拡張します。これは、大きな状態空間の問題を処理できます。
具体的には、$d$ 次元の線形表現を持つ線形混合 MDP に対する値目標回帰 (VTR) に基づく量子アルゴリズムを開発し、それが $\mathcal{O}(\mathrm{poly}(d, H, \) を享受できることを証明します。
log T))$ 後悔しています。
私たちのアルゴリズムは、古典的な RL の UCRL/UCRL-VTR アルゴリズムの変形であり、遅延更新メカニズムと量子推定サブルーチンの新しい組み合わせも活用しています。
これは、古典的な RL における $\Omega(\sqrt{T})$ の後悔の壁を打ち破る鍵です。
私たちの知る限り、これは、証明可能な対数最悪のリグレスを伴う量子 RL のオンライン探索を研究した最初の研究です。

要約(オリジナル)

While quantum reinforcement learning (RL) has attracted a surge of attention recently, its theoretical understanding is limited. In particular, it remains elusive how to design provably efficient quantum RL algorithms that can address the exploration-exploitation trade-off. To this end, we propose a novel UCRL-style algorithm that takes advantage of quantum computing for tabular Markov decision processes (MDPs) with $S$ states, $A$ actions, and horizon $H$, and establish an $\mathcal{O}(\mathrm{poly}(S, A, H, \log T))$ worst-case regret for it, where $T$ is the number of episodes. Furthermore, we extend our results to quantum RL with linear function approximation, which is capable of handling problems with large state spaces. Specifically, we develop a quantum algorithm based on value target regression (VTR) for linear mixture MDPs with $d$-dimensional linear representation and prove that it enjoys $\mathcal{O}(\mathrm{poly}(d, H, \log T))$ regret. Our algorithms are variants of UCRL/UCRL-VTR algorithms in classical RL, which also leverage a novel combination of lazy updating mechanisms and quantum estimation subroutines. This is the key to breaking the $\Omega(\sqrt{T})$-regret barrier in classical RL. To the best of our knowledge, this is the first work studying the online exploration in quantum RL with provable logarithmic worst-case regret.

arxiv情報

著者 Han Zhong,Jiachen Hu,Yecheng Xue,Tongyang Li,Liwei Wang
発行日 2024-06-13 17:00:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, quant-ph, stat.ML パーマリンク