要約
深層強化学習 (RL) はハイパーパラメータに非常に敏感であることでよく知られており、目前の問題に合わせてパラメータを最適化するには実践者に多大な努力が必要です。
これにより、現実世界のシナリオにおける RL の適用性も制限されます。
近年、この問題に対処しようとする自動強化学習 (AutoRL) の分野の人気が高まっています。
ただし、これらのアプローチは通常、追加のサンプルに依存してパフォーマンスの高いハイパーパラメータを選択するため、サンプルの効率と実用性が妨げられます。
さらに、ほとんどの AutoRL 手法は既存の AutoML 手法に大きく基づいており、元々はその非定常性による RL 固有の追加の課題を無視して開発されました。
この研究では、Adaptive $Q$-Network (AdaQN) と呼ばれる AutoRL の新しいアプローチを提案します。これは、追加のサンプルを必要とせずに最適化手順の非定常性を考慮するように RL に合わせて調整されています。
AdaQN は、複数の $Q$ 関数を学習します。各関数は異なるハイパーパラメータでトレーニングされ、共有ターゲットとして最小の近似誤差を持つ $Q$ 関数を使用してオンラインで更新されます。
私たちの選択スキームは、RL 最適化手順によって引き起こされる非定常性に対処しながら、批評家ベースの RL アルゴリズムと直交しながら、さまざまなハイパーパラメーターを同時に処理します。
私たちは、AdaQN が理論的に健全であることを実証し、MuJoCo 制御問題と Atari $2600$ ゲームで経験的に検証し、サンプル効率、全体的なパフォーマンス、確率論に対する堅牢性、トレーニングの安定性におけるメリットを示しました。
要約(オリジナル)
Deep Reinforcement Learning (RL) is well known for being highly sensitive to hyperparameters, requiring practitioners substantial efforts to optimize them for the problem at hand. This also limits the applicability of RL in real-world scenarios. In recent years, the field of automated Reinforcement Learning (AutoRL) has grown in popularity by trying to address this issue. However, these approaches typically hinge on additional samples to select well-performing hyperparameters, hindering sample-efficiency and practicality. Furthermore, most AutoRL methods are heavily based on already existing AutoML methods, which were originally developed neglecting the additional challenges inherent to RL due to its non-stationarities. In this work, we propose a new approach for AutoRL, called Adaptive $Q$-Network (AdaQN), that is tailored to RL to take into account the non-stationarity of the optimization procedure without requiring additional samples. AdaQN learns several $Q$-functions, each one trained with different hyperparameters, which are updated online using the $Q$-function with the smallest approximation error as a shared target. Our selection scheme simultaneously handles different hyperparameters while coping with the non-stationarity induced by the RL optimization procedure and being orthogonal to any critic-based RL algorithm. We demonstrate that AdaQN is theoretically sound and empirically validate it in MuJoCo control problems and Atari $2600$ games, showing benefits in sample-efficiency, overall performance, robustness to stochasticity and training stability.
arxiv情報
著者 | Théo Vincent,Fabian Wahren,Jan Peters,Boris Belousov,Carlo D’Eramo |
発行日 | 2024-10-21 16:32:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google