Enhancing data efficiency in reinforcement learning: a novel imagination mechanism based on mesh information propagation

要約

強化学習 (RL) アルゴリズムは、特に高次元の状態空間や大規模な問題を扱う場合、データ効率が制限されるという課題に直面します。
ほとんどの RL メソッドは、エージェントの Critic を更新するときに同じエピソード内の状態遷移情報のみに依存することが多く、これによりデータ効率が低くなり、トレーニング時間が最適ではなくなります。
人間のような類推能力にインスピレーションを得て、RL アルゴリズムのデータ効率を大幅に向上させるために設計された、「イマジネーション メカニズム (IM)」と呼ばれる新しいメッシュ情報伝播メカニズムを導入します。
具体的には、IM を使用すると、単一のサンプルによって生成された情報を、同じエピソードで単に送信するのではなく、異なる状態に効果的にブロードキャストできるようになり、モデルが状態間の相互依存性をより深く理解し、希少なサンプル情報をより効率的に学習できるようになります。
多用途性を促進するために、他の広く採用されている RL モデルにシームレスかつ流動的に統合できるプラグ アンド プレイ モジュールとして機能するように想像力のメカニズムを拡張します。
私たちの実験では、Imagination メカニズムが SAC、PPO、DDPG、DQN などの 4 つの主流の SOTA RL アルゴリズムを一貫して大幅に向上させ、最終的にさまざまなタスクにわたって以前よりも優れたパフォーマンスにつながることを示しています。
コードとデータにアクセスするには、https://github.com/Zero-coder/FECAM にアクセスしてください。

要約(オリジナル)

Reinforcement learning (RL) algorithms face the challenge of limited data efficiency, particularly when dealing with high-dimensional state spaces and large-scale problems. Most RL methods often rely solely on state transition information within the same episode when updating the agent’s Critic, which can lead to low data efficiency and sub-optimal training time consumption. Inspired by human-like analogical reasoning abilities, we introduce a novel mesh information propagation mechanism, termed the ‘Imagination Mechanism (IM)’, designed to significantly enhance the data efficiency of RL algorithms. Specifically, IM enables information generated by a single sample to be effectively broadcasted to different states, instead of simply transmitting in the same episode and it allows the model to better understand the interdependencies between states and learn scarce sample information more efficiently. To promote versatility, we extend the imagination mechanism to function as a plug-and-play module that can be seamlessly and fluidly integrated into other widely adopted RL models. Our experiments demonstrate that Imagination mechanism consistently boosts four mainstream SOTA RL-algorithms, such as SAC, PPO, DDPG, and DQN, by a considerable margin, ultimately leading to superior performance than before across various tasks. For access to our code and data, please visit https://github.com/Zero-coder/FECAM.

arxiv情報

著者 Zihang Wang,Maowei Jiang
発行日 2023-09-25 16:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク