Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret

要約

最近、量子強化学習 (RL) が注目を集めていますが、その理論的理解は限られています。
特に、探索と搾取のトレードオフに対処できる、証明可能で効率的な量子 RL アルゴリズムを設計する方法は、とらえどころのないままです。
この目的のために、$S$ 状態、$A$ アクション、およびホライズン $H$ を使用して表形式のマルコフ決定プロセス (MDP) に量子コンピューティングを利用する新しい UCRL スタイルのアルゴリズムを提案し、$\mathcal{
O}(\mathrm{poly}(S, A, H, \log T))$ $T$ がエピソードの数である場合、最悪の場合の後悔です。
さらに、線形関数近似を使用して結果を量子強化学習に拡張します。これにより、大きな状態空間の問題を処理できます。
具体的には、$d$ 次元の線形表現を持つ線形混合 MDP の値目標回帰 (VTR) に基づく量子アルゴリズムを開発し、それが $\mathcal{O}(\mathrm{poly}(d, H, \
log T))$ 後悔。
当社のアルゴリズムは、従来の RL における UCRL/UCRL-VTR アルゴリズムの変形であり、遅延更新メカニズムと量子推定サブルーチンの新しい組み合わせも活用しています。
これは、古典的な RL の $\Omega(\sqrt{T})$ 後悔の壁を破る鍵です。
私たちの知る限り、これは証明可能な対数の最悪の場合の後悔を伴う量子強化学習でのオンライン探索を研究する最初の研究です。

要約(オリジナル)

While quantum reinforcement learning (RL) has attracted a surge of attention recently, its theoretical understanding is limited. In particular, it remains elusive how to design provably efficient quantum RL algorithms that can address the exploration-exploitation trade-off. To this end, we propose a novel UCRL-style algorithm that takes advantage of quantum computing for tabular Markov decision processes (MDPs) with $S$ states, $A$ actions, and horizon $H$, and establish an $\mathcal{O}(\mathrm{poly}(S, A, H, \log T))$ worst-case regret for it, where $T$ is the number of episodes. Furthermore, we extend our results to quantum RL with linear function approximation, which is capable of handling problems with large state spaces. Specifically, we develop a quantum algorithm based on value target regression (VTR) for linear mixture MDPs with $d$-dimensional linear representation and prove that it enjoys $\mathcal{O}(\mathrm{poly}(d, H, \log T))$ regret. Our algorithms are variants of UCRL/UCRL-VTR algorithms in classical RL, which also leverage a novel combination of lazy updating mechanisms and quantum estimation subroutines. This is the key to breaking the $\Omega(\sqrt{T})$-regret barrier in classical RL. To the best of our knowledge, this is the first work studying the online exploration in quantum RL with provable logarithmic worst-case regret.

arxiv情報

著者 Han Zhong,Jiachen Hu,Yecheng Xue,Tongyang Li,Liwei Wang
発行日 2023-02-21 16:23:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, quant-ph, stat.ML パーマリンク