Quantum Policy Iteration via Amplitude Estimation and Grover Search — Towards Quantum Advantage for Reinforcement Learning

要約

タイトル:量子政策の反復は振幅推定とグローバー検索を経由して行われ、強化学習の量子アドバンテージに向けて

要約:

– この研究は、量子強化学習の新しい方法の完全な実装とシミュレーションを示している。
– 量子アルゴリズムが強化学習問題を解決するためにどのように使用できるかを証明し、量子環境に対するエラーがなく、効率的な量子実現にアクセスできる場合、量子方法はサンプル複雑性の観点から古典的なモンテカルロベースの方法よりも証明された改善が可能であることを示している。
– アンプルチュード推定とグローバー検索を組み合わせた方策評価と改善スキームを説明することによって、アプローチ方法を詳しく説明しています。
– 最初に量子方策評価(QPE)を開発し、有限マルコフ決定プロセス(MDP)の量子機械的な実現に基づいて、同様の古典的なモンテカルロ評価と比較して2次的に効率的であることを示しています。
– QPEに基づいて、グローバー検索を使用して初期方策を繰り返し改善し、最適値に到達する量子方策反復を導出します。
– 最後に、2本のアームのバンディットMDPのアルゴリズムの実装を示し、シミュレーションを行います。

要約(オリジナル)

We present a full implementation and simulation of a novel quantum reinforcement learning method. Our work is a detailed and formal proof of concept for how quantum algorithms can be used to solve reinforcement learning problems and shows that, given access to error-free, efficient quantum realizations of the agent and environment, quantum methods can yield provable improvements over classical Monte-Carlo based methods in terms of sample complexity. Our approach shows in detail how to combine amplitude estimation and Grover search into a policy evaluation and improvement scheme. We first develop quantum policy evaluation (QPE) which is quadratically more efficient compared to an analogous classical Monte Carlo estimation and is based on a quantum mechanical realization of a finite Markov decision process (MDP). Building on QPE, we derive a quantum policy iteration that repeatedly improves an initial policy using Grover search until the optimum is reached. Finally, we present an implementation of our algorithm for a two-armed bandit MDP which we then simulate.

arxiv情報

著者 Simon Wiedemann,Daniel Hein,Steffen Udluft,Christian Mendl
発行日 2023-05-10 08:36:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, quant-ph パーマリンク