要約
マルコフ決定プロセス(MDP)への量子Oracleアクセスを備えたモデルフリー設定での量子補強学習(QRL)の問題に対処します。
このペーパーでは、量子自然政策勾配(QNPG)アルゴリズムを紹介します。これは、古典的な自然政策勾配(NPG)推定器で使用されるランダムサンプリングを決定的な勾配推定アプローチに置き換え、量子システムへのシームレスな統合を可能にします。
この変更により推定器に境界のあるバイアスが導入されますが、バイアスは切り捨てレベルの増加とともに指数関数的に減少します。
この論文は、提案されたQNPGアルゴリズムが$ \ Tilde {\ mathcal {o}}(\ epsilon^{-1.5})$の$ \ tilde {\ mathcal {o}}(\ epsilon^{-1.5})$のサンプルの複雑さを達成し、$ \ tildeの古典的な下限を大幅に改善することを示しています。
{\ mathcal {o}}(\ epsilon^{-2})$ mdpのクエリの場合。
要約(オリジナル)
We address the problem of quantum reinforcement learning (QRL) under model-free settings with quantum oracle access to the Markov Decision Process (MDP). This paper introduces a Quantum Natural Policy Gradient (QNPG) algorithm, which replaces the random sampling used in classical Natural Policy Gradient (NPG) estimators with a deterministic gradient estimation approach, enabling seamless integration into quantum systems. While this modification introduces a bounded bias in the estimator, the bias decays exponentially with increasing truncation levels. This paper demonstrates that the proposed QNPG algorithm achieves a sample complexity of $\tilde{\mathcal{O}}(\epsilon^{-1.5})$ for queries to the quantum oracle, significantly improving the classical lower bound of $\tilde{\mathcal{O}}(\epsilon^{-2})$ for queries to the MDP.
arxiv情報
著者 | Yang Xu,Vaneet Aggarwal |
発行日 | 2025-01-27 17:38:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google