Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning

要約

強化学習法の大部分は、作用値関数の効果的な推定を得るために必要な計算量とデータ量に大きく影響される。通常、行動価値関数は、ベルマン演算子の経験的近似の適用と、それに続く関数空間への射影ステップを交互に繰り返す反復スキームによって推定される。このスキームは、ベルマン作用素の複数の反復を一度に実行するように一般化できる可能性があり、基礎となる学習アルゴリズムに利益をもたらすことが観察されている。しかし、これまで、特に高次元問題において、このアイデアを効果的に実装することは困難であった。本論文では、反復$Q$-Network(i-QN)を紹介する。i-QNは、行動値関数を学習することで、複数回の連続したベルマン更新を可能にする新しい原理的アプローチである。i-QNは理論的根拠があり、価値ベースや行為者批評的手法にシームレスに利用できることを示す。アタリ$2600$ゲームとMuJoCo連続制御問題において、i-QNの優位性を実証的に示す。

要約(オリジナル)

The vast majority of Reinforcement Learning methods is largely impacted by the computation effort and data requirements needed to obtain effective estimates of action-value functions, which in turn determine the quality of the overall performance and the sample-efficiency of the learning procedure. Typically, action-value functions are estimated through an iterative scheme that alternates the application of an empirical approximation of the Bellman operator and a subsequent projection step onto a considered function space. It has been observed that this scheme can be potentially generalized to carry out multiple iterations of the Bellman operator at once, benefiting the underlying learning algorithm. However, till now, it has been challenging to effectively implement this idea, especially in high-dimensional problems. In this paper, we introduce iterated $Q$-Network (i-QN), a novel principled approach that enables multiple consecutive Bellman updates by learning a tailored sequence of action-value functions where each serves as the target for the next. We show that i-QN is theoretically grounded and that it can be seamlessly used in value-based and actor-critic methods. We empirically demonstrate the advantages of i-QN in Atari $2600$ games and MuJoCo continuous control problems.

arxiv情報

著者 Théo Vincent,Daniel Palenicek,Boris Belousov,Jan Peters,Carlo D’Eramo
発行日 2025-03-03 11:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク