要約
深層強化学習(RL)は、ハイパーパラメータに非常に敏感であることでよく知られており、実践者は、手元の問題に対してハイパーパラメータを最適化するために多大な努力を必要とする。これはまた、実世界のシナリオにおけるRLの適用性を制限する。近年、この問題を解決しようとする自動強化学習(AutoRL)の分野が人気を集めている。しかし、これらのアプローチは一般的に、性能の良いハイパーパラメータを選択するための追加サンプルに依存しており、サンプル効率と実用性を阻害している。さらに、ほとんどのAutoRL手法は、既存のAutoML手法に大きく依存しており、それらは元々、非定常性に起因するRL固有の新たな課題を無視して開発されたものである。本論文では、Adaptive $Q$-Network(AdaQN)と呼ばれるAutoRLのための新しいアプローチを提案する。AdaQNは複数の$Q$関数を学習し、それぞれが異なるハイパーパラメータで訓練され、共有ターゲットとして最も近似誤差の小さい$Q$関数を用いてオンラインで更新される。我々の選択スキームは、RL最適化手順によって引き起こされる非定常性に対処しながら、同時に異なるハイパーパラメータを扱い、あらゆる批評家ベースのRLアルゴリズムに直交する。我々は、AdaQNが理論的に正しいことを実証し、MuJoCo制御問題とAtari $2600$ゲームで実証的に検証し、サンプル効率、全体的性能、確率性に対する頑健性、学習の安定性における利点を示す。
要約(オリジナル)
Deep Reinforcement Learning (RL) is well known for being highly sensitive to hyperparameters, requiring practitioners substantial efforts to optimize them for the problem at hand. This also limits the applicability of RL in real-world scenarios. In recent years, the field of automated Reinforcement Learning (AutoRL) has grown in popularity by trying to address this issue. However, these approaches typically hinge on additional samples to select well-performing hyperparameters, hindering sample-efficiency and practicality. Furthermore, most AutoRL methods are heavily based on already existing AutoML methods, which were originally developed neglecting the additional challenges inherent to RL due to its non-stationarities. In this work, we propose a new approach for AutoRL, called Adaptive $Q$-Network (AdaQN), that is tailored to RL to take into account the non-stationarity of the optimization procedure without requiring additional samples. AdaQN learns several $Q$-functions, each one trained with different hyperparameters, which are updated online using the $Q$-function with the smallest approximation error as a shared target. Our selection scheme simultaneously handles different hyperparameters while coping with the non-stationarity induced by the RL optimization procedure and being orthogonal to any critic-based RL algorithm. We demonstrate that AdaQN is theoretically sound and empirically validate it in MuJoCo control problems and Atari $2600$ games, showing benefits in sample-efficiency, overall performance, robustness to stochasticity and training stability.
arxiv情報
著者 | Théo Vincent,Fabian Wahren,Jan Peters,Boris Belousov,Carlo D’Eramo |
発行日 | 2025-03-03 11:39:53+00:00 |
arxivサイト | arxiv_id(pdf) |