要約
複雑な環境における効率的な探索は、強化学習(RL)にとって依然として大きな課題である。時間的に拡張された探索、すなわち深層探索を可能にする、これまでのトンプソンサンプリングに着想を得たメカニズムと比較して、我々は分布RLにおける深層探索に焦点を当てる。BoPは、そのコピーの母集団を維持することで、任意の戻り分布推定器の上に構築することができる。BoPは、独立に更新される複数のヘッドのアンサンブルから構成される。訓練中、各エピソードはヘッドの1つによってのみ制御され、収集された状態-動作のペアは、オフポリシーで全てのヘッドを更新するために使用される。ブートストラップDQNなどによるスカラーRLと同様に、楽観的アンサンブル手法が分布型RLを改善できるかどうかを検証するために、ベイズ分布政策勾配(BDPG)を用いて、分布型アクター・クリティックの母集団でBoPアプローチを実装する。このように、母集団は、ポリシーの事後分布とともに、リターン分布の事後分布を近似する。BDPGを基礎とするもう一つの利点は、探索のために局所的な好奇心ボーナスと共に大域的な事後不確実性を同時に分析できることである。BDPGはすでに楽観的な手法であるため、この組み合わせは、楽観主義が分布的RLにおいて蓄積可能かどうかを調査するのに役立つ。全体としてBoPは、ALEアタリゲームでの実験結果によって実証されたように、学習時のロバスト性と速度が向上する。
要約(オリジナル)
Efficient exploration in complex environments remains a major challenge for reinforcement learning (RL). Compared to previous Thompson sampling-inspired mechanisms that enable temporally extended exploration, i.e., deep exploration, we focus on deep exploration in distributional RL. We develop here a general purpose approach, Bag of Policies (BoP), that can be built on top of any return distribution estimator by maintaining a population of its copies. BoP consists of an ensemble of multiple heads that are updated independently. During training, each episode is controlled by only one of the heads and the collected state-action pairs are used to update all heads off-policy, leading to distinct learning signals for each head which diversify learning and behaviour. To test whether optimistic ensemble method can improve on distributional RL as did on scalar RL, by e.g. Bootstrapped DQN, we implement the BoP approach with a population of distributional actor-critics using Bayesian Distributional Policy Gradients (BDPG). The population thus approximates a posterior distribution of return distributions along with a posterior distribution of policies. Another benefit of building upon BDPG is that it allows to analyze global posterior uncertainty along with local curiosity bonus simultaneously for exploration. As BDPG is already an optimistic method, this pairing helps to investigate if optimism is accumulatable in distributional RL. Overall BoP results in greater robustness and speed during learning as demonstrated by our experimental results on ALE Atari games.
arxiv情報
著者 | Asen Nachkov,Luchen Li,Giulia Luise,Filippo Valdettaro,Aldo Faisal |
発行日 | 2023-08-03 13:43:03+00:00 |
arxivサイト | arxiv_id(pdf) |