Warm-Start Variational Quantum Policy Iteration


我々は、NISQ 互換の量子強化サブルーチンでこのステップを実現する、変分量子ポリシー反復 (VarQPI) アルゴリズムを提案します。
さらに、リソースのオーバーヘッドを大幅に削減するウォーム スタート初期化バリアント (WS-VarQPI) を導入します。
このアルゴリズムは、基礎となる 256×256 次元の線形システムを使用して大規模な FrozenLake 環境を解決し、その実用的な堅牢性を示しています。


Reinforcement learning is a powerful framework aiming to determine optimal behavior in highly complex decision-making scenarios. This objective can be achieved using policy iteration, which requires to solve a typically large linear system of equations. We propose the variational quantum policy iteration (VarQPI) algorithm, realizing this step with a NISQ-compatible quantum-enhanced subroutine. Its scalability is supported by an analysis of the structure of generic reinforcement learning environments, laying the foundation for potential quantum advantage with utility-scale quantum computers. Furthermore, we introduce the warm-start initialization variant (WS-VarQPI) that significantly reduces resource overhead. The algorithm solves a large FrozenLake environment with an underlying 256×256-dimensional linear system, indicating its practical robustness.


著者 Nico Meyer,Jakob Murauer,Alexander Popov,Christian Ufrecht,Axel Plinge,Christopher Mutschler,Daniel D. Scherer
発行日 2024-07-17 15:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph パーマリンク