要約
私たちは、線形ベルマン完全設定のための計算的および統計的に効率的な強化学習アルゴリズムを研究します。この設定は、値関数を取得するために線形関数近似を使用し、線形マルコフ決定プロセス (MDP) や線形二次レギュレーター (LQR) などの既存のモデルを統合する設定です。
この設定が統計的に扱いやすいことは以前の研究から知られていますが、計算効率の高いアルゴリズムが存在するかどうかは不明のままでした。
私たちの研究は、大きなアクション スペース、ランダムな初期状態、ランダムな報酬を持つ MDP に機能する、線形ベルマン完全設定のための計算効率の高いアルゴリズムを提供しますが、決定論的な基礎となるダイナミクスに依存しています。
私たちのアプローチはランダム化に基づいており、最小二乗回帰問題にランダム ノイズを注入して、楽観的な値の反復を実行します。
私たちの主な技術的貢献は、微妙な誤差増幅の問題を回避しながら楽観性を確保するために、トレーニング データのヌル空間でのみ作用するノイズを慎重に設計することです。
要約(オリジナル)
We study computationally and statistically efficient Reinforcement Learning algorithms for the linear Bellman Complete setting, a setting that uses linear function approximation to capture value functions and unifies existing models like linear Markov Decision Processes (MDP) and Linear Quadratic Regulators (LQR). While it is known from the prior works that this setting is statistically tractable, it remained open whether a computationally efficient algorithm exists. Our work provides a computationally efficient algorithm for the linear Bellman complete setting that works for MDPs with large action spaces, random initial states, and random rewards but relies on the underlying dynamics to be deterministic. Our approach is based on randomization: we inject random noise into least square regression problems to perform optimistic value iteration. Our key technical contribution is to carefully design the noise to only act in the null space of the training data to ensure optimism while circumventing a subtle error amplification issue.
arxiv情報
著者 | Runzhe Wu,Ayush Sekhari,Akshay Krishnamurthy,Wen Sun |
発行日 | 2024-06-17 17:52:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google