Enhancing data efficiency in reinforcement learning: a novel imagination mechanism based on mesh information propagation

要約

強化学習 (RL) アルゴリズムは、特に高次元の状態空間や大規模な問題を扱う場合、データ効率が制限されるという課題に直面します。
RL メソッドのほとんどは、エージェントの Critic を更新するときに同じエピソード内の状態遷移情報のみに依存することが多く、データ効率が低くなり、トレーニング時間の消費が最適ではなくなる可能性があります。
人間のような類推能力にインスピレーションを得て、RL アルゴリズムのデータ効率を大幅に向上させるために設計された、「イマジネーション メカニズム (IM)」と呼ばれる新しいメッシュ情報伝播メカニズムを導入します。
具体的には、IM を使用すると、単一のサンプルによって生成された情報を、同じエピソード内で単に送信するのではなく、エピソード間で異なる状態に効果的にブロードキャストできるようになります。
この機能により、モデルによる状態の相互依存性の理解が強化され、限られたサンプル情報のより効率的な学習が促進されます。
多用途性を促進するために、他の広く採用されている RL アルゴリズムにシームレスかつ流動的に統合できるプラグ アンド プレイ モジュールとして機能するように IM を拡張しました。
私たちの実験では、IM が SAC、PPO、DDPG、DQN などの 4 つの主流 SOTA RL アルゴリズムを一貫して大幅に向上させ、最終的にはさまざまなタスクにわたって以前よりも優れたパフォーマンスにつながることが実証されました。
コードとデータにアクセスするには、https://github.com/OuAzusaKou/imagination_mechanism にアクセスしてください。

要約(オリジナル)

Reinforcement learning(RL) algorithms face the challenge of limited data efficiency, particularly when dealing with high-dimensional state spaces and large-scale problems. Most of RL methods often rely solely on state transition information within the same episode when updating the agent’s Critic, which can lead to low data efficiency and sub-optimal training time consumption. Inspired by human-like analogical reasoning abilities, we introduce a novel mesh information propagation mechanism, termed the ‘Imagination Mechanism (IM)’, designed to significantly enhance the data efficiency of RL algorithms. Specifically, IM enables information generated by a single sample to be effectively broadcasted to different states across episodes, instead of simply transmitting in the same episode. This capability enhances the model’s comprehension of state interdependencies and facilitates more efficient learning of limited sample information. To promote versatility, we extend the IM to function as a plug-and-play module that can be seamlessly and fluidly integrated into other widely adopted RL algorithms. Our experiments demonstrate that IM consistently boosts four mainstream SOTA RL algorithms, such as SAC, PPO, DDPG, and DQN, by a considerable margin, ultimately leading to superior performance than before across various tasks. For access to our code and data, please visit https://github.com/OuAzusaKou/imagination_mechanism

arxiv情報

著者 Zihang Wang,Maowei Jiang
発行日 2023-09-27 15:43:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク