Warm-Start Variational Quantum Policy Iteration

要約

強化学習は、非常に複雑な意思決定シナリオで最適な動作を決定することを目的とした強力なフレームワークです。
この目的は、一般に大規模な線形方程式系を解く必要があるポリシーの反復を使用して達成できます。
我々は、NISQ 互換の量子強化サブルーチンでこのステップを実現する、変分量子ポリシー反復 (VarQPI) アルゴリズムを提案します。
そのスケーラビリティは、一般的な強化学習環境の構造の分析によってサポートされており、実用規模の量子コンピューターによる潜在的な量子利点の基礎を築きます。
さらに、リソースのオーバーヘッドを大幅に削減するウォーム スタート初期化バリアント (WS-VarQPI) を導入します。
このアルゴリズムは、基礎となる 256×256 次元の線形システムを使用して大規模な FrozenLake 環境を解決し、その実用的な堅牢性を示しています。

要約(オリジナル)

Reinforcement learning is a powerful framework aiming to determine optimal behavior in highly complex decision-making scenarios. This objective can be achieved using policy iteration, which requires to solve a typically large linear system of equations. We propose the variational quantum policy iteration (VarQPI) algorithm, realizing this step with a NISQ-compatible quantum-enhanced subroutine. Its scalability is supported by an analysis of the structure of generic reinforcement learning environments, laying the foundation for potential quantum advantage with utility-scale quantum computers. Furthermore, we introduce the warm-start initialization variant (WS-VarQPI) that significantly reduces resource overhead. The algorithm solves a large FrozenLake environment with an underlying 256×256-dimensional linear system, indicating its practical robustness.

arxiv情報

著者 Nico Meyer,Jakob Murauer,Alexander Popov,Christian Ufrecht,Axel Plinge,Christopher Mutschler,Daniel D. Scherer
発行日 2024-07-17 15:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph パーマリンク