Faster Deep Reinforcement Learning with Slower Online Network

要約

【タイトル】
より高速な深層強化学習による遅いオンラインネットワーク

【要約】
・深層強化学習アルゴリズムは、通常、2つのネットワークを使用して価値関数の最適化を行う
・オンラインネットワークとターゲットネットワークの両方を使用することで、ブートストラップを実行する際に発生する問題に対処できる
・本論文では、DQNとRainbowという2つの深層強化学習アルゴリズムに、オンラインネットワークがターゲットネットワークに近い状態を維持するように更新を施した
・これにより、ノイズのある更新がある場合でも、深層強化学習の堅牢性が向上する
・結果として、DQN ProとRainbow Proと呼ばれるエージェントは、Atariベンチマークで元のモデルよりも性能が大幅に向上する
・本論文のコードは以下で入手可能Github.com/amazon-research/fast-rl-with-slow-updates

要約(オリジナル)

Deep reinforcement learning algorithms often use two networks for value function optimization: an online network, and a target network that tracks the online network with some delay. Using two separate networks enables the agent to hedge against issues that arise when performing bootstrapping. In this paper we endow two popular deep reinforcement learning algorithms, namely DQN and Rainbow, with updates that incentivize the online network to remain in the proximity of the target network. This improves the robustness of deep reinforcement learning in presence of noisy updates. The resultant agents, called DQN Pro and Rainbow Pro, exhibit significant performance improvements over their original counterparts on the Atari benchmark demonstrating the effectiveness of this simple idea in deep reinforcement learning. The code for our paper is available here: Github.com/amazon-research/fast-rl-with-slow-updates.

arxiv情報

著者 Kavosh Asadi,Rasool Fakoor,Omer Gottesman,Taesup Kim,Michael L. Littman,Alexander J. Smola
発行日 2023-04-17 19:17:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク