On Quantum Natural Policy Gradients


この研究では、パラメータ化量子回路 (PQC) ベースの強化学習エージェントのパフォーマンス向上における量子フィッシャー情報行列 (FIM) の役割を詳しく調査します。
これまでの研究では、コンテキストバンディットにおける量子 FIM を前提とした PQC ベースのポリシーの有効性が強調されてきましたが、マルコフ決定プロセスなどのより広範な強化学習コンテキストにおけるその影響はそれほど明確ではありません。
この研究では、量子 FIM と古典的 FIM の間の所有者不平等の詳細な分析を通じて、各タイプの FIM の使用の微妙な違いと影響を明らかにしています。
私たちの結果は、追加の洞察なしで量子 FIM を使用する PQC ベースのエージェントは、通常、より大きな近似誤差を招き、古典的な FIM と比較してパフォーマンスの向上が保証されないことを示しています。
古典的な制御ベンチマークでの経験的評価は、量子 FIM プレコンディショニングが標準的な勾配上昇よりも優れているにもかかわらず、一般に古典的な FIM プレコンディショニングよりも優れているわけではないことを示唆しています。


This research delves into the role of the quantum Fisher Information Matrix (FIM) in enhancing the performance of Parameterized Quantum Circuit (PQC)-based reinforcement learning agents. While previous studies have highlighted the effectiveness of PQC-based policies preconditioned with the quantum FIM in contextual bandits, its impact in broader reinforcement learning contexts, such as Markov Decision Processes, is less clear. Through a detailed analysis of L\’owner inequalities between quantum and classical FIMs, this study uncovers the nuanced distinctions and implications of using each type of FIM. Our results indicate that a PQC-based agent using the quantum FIM without additional insights typically incurs a larger approximation error and does not guarantee improved performance compared to the classical FIM. Empirical evaluations in classic control benchmarks suggest even though quantum FIM preconditioning outperforms standard gradient ascent, in general it is not superior to classical FIM preconditioning.


著者 André Sequeira,Luis Paulo Santos,Luis Soares Barbosa
発行日 2024-01-16 12:08:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph パーマリンク