Simplifying Deep Temporal Difference Learning

要約

Qラーニングは、フィールド補強学習(RL)で基本的な役割を果たしました。
ただし、Qラーニングなどのオフポリシーデータを備えたTDアルゴリズム、またはディープニューラルネットワークのような非線形関数近似には、主に大規模なリプレイバッファとターゲットネットワークを安定させるためにいくつかの追加のトリックが必要です。
残念ながら、ターゲットネットワーク内のフローズンネットワークパラメーターの更新の遅延は、サンプルの効率に害を及ぼし、同様に、大きなリプレイバッファーはメモリと実装のオーバーヘッドを導入します。
このホワイトペーパーでは、安定性を維持しながら、オフポリティTDトレーニングを加速および簡素化できるかどうかを調査します。
私たちの主要な理論的結果は、Layernormなどの正規化手法が、オフポリシーデータを使用しても、ターゲットネットワークやリプレイバッファーを必要とせずに、実証的に収束するTDアルゴリズムを生成できることを初めて示しています。
経験的には、ベクトル化された環境によって有効になったオンラインの並列化されたサンプリングは、大きなリプレイバッファーを必要とせずにトレーニングを安定させることがわかります。
これらの調査結果に動機付けられて、私たちはPQNであるPQNを提案します。
驚くべきことに、この単純なアルゴリズムは、AtariのRainbow、CraftaxのPPO-RNN、SMAXのQMIXなどのより複雑な方法と競合し、サンプルの効率を犠牲にすることなく、従来のDQNよりも最大50倍高速になります。
PPOがGo-To RLアルゴリズムになった時代に、PQNは実行可能な代替手段としてポリシーQラーニングを再確立します。

要約(オリジナル)

Q-learning played a foundational role in the field reinforcement learning (RL). However, TD algorithms with off-policy data, such as Q-learning, or nonlinear function approximation like deep neural networks require several additional tricks to stabilise training, primarily a large replay buffer and target networks. Unfortunately, the delayed updating of frozen network parameters in the target network harms the sample efficiency and, similarly, the large replay buffer introduces memory and implementation overheads. In this paper, we investigate whether it is possible to accelerate and simplify off-policy TD training while maintaining its stability. Our key theoretical result demonstrates for the first time that regularisation techniques such as LayerNorm can yield provably convergent TD algorithms without the need for a target network or replay buffer, even with off-policy data. Empirically, we find that online, parallelised sampling enabled by vectorised environments stabilises training without the need for a large replay buffer. Motivated by these findings, we propose PQN, our simplified deep online Q-Learning algorithm. Surprisingly, this simple algorithm is competitive with more complex methods like: Rainbow in Atari, PPO-RNN in Craftax, QMix in Smax, and can be up to 50x faster than traditional DQN without sacrificing sample efficiency. In an era where PPO has become the go-to RL algorithm, PQN reestablishes off-policy Q-learning as a viable alternative.

arxiv情報

著者 Matteo Gallici,Mattie Fellows,Benjamin Ellis,Bartomeu Pou,Ivan Masmitja,Jakob Nicolaus Foerster,Mario Martin
発行日 2025-03-25 16:32:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク