Efficient Deep Reinforcement Learning with Predictive Processing Proximal Policy Optimization

要約

強化学習 (RL) の進歩は、多くの場合、大規模なコンピューティング リソースに依存しており、依然としてサンプリングが非効率であることが知られています。
対照的に、人間の脳は、限られたリソースを使用して効果的な制御戦略を効率的に学習することができます。
このため、神経科学からの洞察を現在の RL 手法の改善に使用できるかどうかという疑問が生じます。
予測処理は、人間の脳が驚きを最小限に抑えようと積極的に努めていると主張する一般的な理論的枠組みです。
私たちは、自身の感覚状態を予測するリカレント ニューラル ネットワークを活用して驚きを最小限に抑え、累積報酬に大きな利益をもたらすことができることを示します。
具体的には、予測処理近接ポリシー最適化 (P4O) エージェントを紹介します。
隠れ状態のワールド モデルを統合することによって、PPO アルゴリズムのリカレント バリアントに予測処理を適用する、アクタークリティカル強化学習エージェント。
ハイパーパラメーターを調整しなくても、P4O は、単一の GPU を使用する複数の Atari ゲーム上で、PPO アルゴリズムのベースライン反復バリアントを大幅に上回ります。
また、同じ実時間を与えた場合、他の最先端のエージェントよりも優れたパフォーマンスを発揮し、Atari ドメインの中でも特に困難な環境である Seaquest を含む複数のゲームで人間のゲーマーのパフォーマンスを上回ります。
まとめると、私たちの研究は、神経科学の分野からの洞察が、より有能で効率的な人工エージェントの開発をどのようにサポートできるかを強調しています。

要約(オリジナル)

Advances in reinforcement learning (RL) often rely on massive compute resources and remain notoriously sample inefficient. In contrast, the human brain is able to efficiently learn effective control strategies using limited resources. This raises the question whether insights from neuroscience can be used to improve current RL methods. Predictive processing is a popular theoretical framework which maintains that the human brain is actively seeking to minimize surprise. We show that recurrent neural networks which predict their own sensory states can be leveraged to minimise surprise, yielding substantial gains in cumulative reward. Specifically, we present the Predictive Processing Proximal Policy Optimization (P4O) agent; an actor-critic reinforcement learning agent that applies predictive processing to a recurrent variant of the PPO algorithm by integrating a world model in its hidden state. Even without hyperparameter tuning, P4O significantly outperforms a baseline recurrent variant of the PPO algorithm on multiple Atari games using a single GPU. It also outperforms other state-of-the-art agents given the same wall-clock time and exceeds human gamer performance on multiple games including Seaquest, which is a particularly challenging environment in the Atari domain. Altogether, our work underscores how insights from the field of neuroscience may support the development of more capable and efficient artificial agents.

arxiv情報

著者 Burcu Küçükoğlu,Walraaf Borkent,Bodo Rueckauer,Nasir Ahmad,Umut Güçlü,Marcel van Gerven
発行日 2024-01-29 14:17:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク