要約
タイトル:バッファサンプリングのための探索と活用のトレードオフをモンテカルロ法により実現する
要約:
– 強化学習などのデータベース最適化技術において、データ選択は必須である。
– 経験再生バッファの最新サンプリング戦略は、強化学習エージェントのパフォーマンスを向上させる。
– しかし、Q値の推定に不確実性を組み込んでいないため、タスクの複雑性に応じて探索と活用のトレードオフを含むサンプリング戦略を適応させることはできない。
– この論文は、探索と活用のトレードオフを活用した新しいサンプリング戦略を提案する。
– Q値関数の不確実性推定により、サンプリングはより重要な遷移を探索し、より効率的なポリシーを学習するように誘導される。
– 古典的な制御環境での実験は、様々な環境において安定した結果を示した。
– 提案された手法は、収束およびピークパフォーマンスに関して、平均で26%の密な報酬に対する最新のサンプリング戦略を上回ることを示した。
要約(オリジナル)
Data selection is essential for any data-based optimization technique, such as Reinforcement Learning. State-of-the-art sampling strategies for the experience replay buffer improve the performance of the Reinforcement Learning agent. However, they do not incorporate uncertainty in the Q-Value estimation. Consequently, they cannot adapt the sampling strategies, including exploration and exploitation of transitions, to the complexity of the task. To address this, this paper proposes a new sampling strategy that leverages the exploration-exploitation trade-off. This is enabled by the uncertainty estimation of the Q-Value function, which guides the sampling to explore more significant transitions and, thus, learn a more efficient policy. Experiments on classical control environments demonstrate stable results across various environments. They show that the proposed method outperforms state-of-the-art sampling strategies for dense rewards w.r.t. convergence and peak performance by 26% on average.
arxiv情報
著者 | Julius Ott,Lorenzo Servadei,Jose Arjona-Medina,Enrico Rinaldi,Gianfranco Mauro,Daniela Sánchez Lopera,Michael Stephan,Thomas Stadelmayer,Avik Santra,Robert Wille |
発行日 | 2023-04-17 07:11:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI