Improving the Diversity of Bootstrapped DQN by Replacing Priors With Noise

要約

Q 学習は、最もよく知られた強化学習アルゴリズムの 1 つです。
ニューラル ネットワークを使用してこのアルゴリズムを開発するには、多大な努力が払われてきました。
ブートストラップされた Deep Q-Learning Network もその 1 つです。
複数のニューラル ネットワーク ヘッドを利用して Q 学習に多様性を導入します。
多様性は、RL における探索率の定義と同様に、エージェントが特定の状態で実行できる合理的な動きの量と見なすこともできます。
したがって、ブートストラップされたディープ Q ラーニング ネットワークのパフォーマンスは、アルゴリズム内の多様性のレベルと深く関係しています。
元の研究では、ランダム事前分布によってモデルのパフォーマンスが向上する可能性があることが指摘されていました。
この記事では、事前分布をノイズで置き換える可能性をさらに検討し、ガウス分布からノイズをサンプリングして、このアルゴリズムにさらなる多様性を導入します。
Atari ベンチマークで実験を実施し、アルゴリズムを元のアルゴリズムと他の関連アルゴリズムの両方と比較します。
結果は、ブートストラップ ディープ Q ラーニング アルゴリズムの修正により、さまざまな種類の Atari ゲームにわたって大幅に高い評価スコアが達成されたことを示しています。
したがって、事前分布をノイズに置き換えると、多様性の整合性が確保され、ブートストラップされたディープ Q ラーニングのパフォーマンスが向上すると結論付けられます。

要約(オリジナル)

Q-learning is one of the most well-known Reinforcement Learning algorithms. There have been tremendous efforts to develop this algorithm using neural networks. Bootstrapped Deep Q-Learning Network is amongst them. It utilizes multiple neural network heads to introduce diversity into Q-learning. Diversity can sometimes be viewed as the amount of reasonable moves an agent can take at a given state, analogous to the definition of the exploration ratio in RL. Thus, the performance of Bootstrapped Deep Q-Learning Network is deeply connected with the level of diversity within the algorithm. In the original research, it was pointed out that a random prior could improve the performance of the model. In this article, we further explore the possibility of replacing priors with noise and sample the noise from a Gaussian distribution to introduce more diversity into this algorithm. We conduct our experiment on the Atari benchmark and compare our algorithm to both the original and other related algorithms. The results show that our modification of the Bootstrapped Deep Q-Learning algorithm achieves significantly higher evaluation scores across different types of Atari games. Thus, we conclude that replacing priors with noise can improve Bootstrapped Deep Q-Learning’s performance by ensuring the integrity of diversities.

arxiv情報

著者 Li Meng,Morten Goodwin,Anis Yazidi,Paal Engelstad
発行日 2024-06-24 15:09:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク