Quantum Natural Policy Gradients: Towards Sample-Efficient Reinforcement Learning


強化学習は、多くの可能性を秘めた AI の成長分野です。
これを実装するために、量子自然政策勾配 (QNPG) アルゴリズム、つまり量子フィッシャー情報行列の効率的な近似を利用する 2 次勾配ベースのルーチンを提案します。
我々は、QNPG が収束速度と安定性に関してコンテキスト バンディット環境での一次ベースのトレーニングを上回り、さらにサンプルの複雑さを軽減することを実験的に示しています。
さらに、12 量子ビットのハードウェア デバイスでトレーニングすることにより、アプローチの実際的な実現可能性の証拠を提供します。


Reinforcement learning is a growing field in AI with a lot of potential. Intelligent behavior is learned automatically through trial and error in interaction with the environment. However, this learning process is often costly. Using variational quantum circuits as function approximators potentially can reduce this cost. In order to implement this, we propose the quantum natural policy gradient (QNPG) algorithm — a second-order gradient-based routine that takes advantage of an efficient approximation of the quantum Fisher information matrix. We experimentally demonstrate that QNPG outperforms first-order based training on Contextual Bandits environments regarding convergence speed and stability and moreover reduces the sample complexity. Furthermore, we provide evidence for the practical feasibility of our approach by training on a 12-qubit hardware device.


著者 Nico Meyer,Daniel D. Scherer,Axel Plinge,Christopher Mutschler,Michael J. Hartmann
発行日 2023-08-09 11:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph パーマリンク