Efficient Reinforcement Learning via Decoupling Exploration and Utilization

要約

強化学習 (RL) は効率的な学習アプローチとして認識されており、ゲーム、ロボット工学、自動運転車などの複数の分野やアプリケーションにわたって目覚ましい成功を収めています。
古典的なシングルエージェント強化学習は、探索と活用の不均衡、および汎化能力の制限に対処します。
この方法論では、アルゴリズムが特定のデータセットのみに合わせて調整された次善のソリューションに落ち着くことがよくあります。
この取り組みにおける私たちの目的は、エージェントが次善のソリューションという難題から逃れられるように、探索と利用を分離することで効率的な学習でエージェントをトレーニングすることです。
強化学習では、以前に課された悲観的な懲罰措置によりモデルの探索能力が奪われ、探索能力が低下します。
これに対処するために、モデルの探索能力を強化するために追加の楽観的アクターを導入し、パフォーマンス評価にはより制約された悲観的アクターを採用しました。
上記のアイデアは、提案されている OPARL (楽観的および悲観的なアクター強化学習) アルゴリズムに実装されています。
強化学習パラダイム内でのこの独自の融合により、よりバランスの取れた効率的なアプローチが促進されます。
これは、楽観的な探索を通じて広範な州の適用範囲を確保しながら、同時に悲観的な搾取戦略を通じて高額な報酬をもたらす行動に集中する政策の最適化を促進します。
経験的および理論的調査により、OPARL が利用と探索の両方においてエージェントの機能を強化することが実証されています。
DMControl ベンチマークと Mujoco 環境のほとんどのタスクでは、OPARL は最先端の方法よりも優れたパフォーマンスを発揮しました。
私たちのコードは https://github.com/yydsok/OPARL でリリースされました

要約(オリジナル)

Reinforcement Learning (RL), recognized as an efficient learning approach, has achieved remarkable success across multiple fields and applications, including gaming, robotics, and autonomous vehicles. Classical single-agent reinforcement learning grapples with the imbalance of exploration and exploitation as well as limited generalization abilities. This methodology frequently leads to algorithms settling for suboptimal solutions that are tailored only to specific datasets. In this work, our aim is to train agent with efficient learning by decoupling exploration and utilization, so that agent can escaping the conundrum of suboptimal Solutions. In reinforcement learning, the previously imposed pessimistic punitive measures have deprived the model of its exploratory potential, resulting in diminished exploration capabilities. To address this, we have introduced an additional optimistic Actor to enhance the model’s exploration ability, while employing a more constrained pessimistic Actor for performance evaluation. The above idea is implemented in the proposed OPARL (Optimistic and Pessimistic Actor Reinforcement Learning) algorithm. This unique amalgamation within the reinforcement learning paradigm fosters a more balanced and efficient approach. It facilitates the optimization of policies that concentrate on high-reward actions via pessimistic exploitation strategies while concurrently ensuring extensive state coverage through optimistic exploration. Empirical and theoretical investigations demonstrate that OPARL enhances agent capabilities in both utilization and exploration. In the most tasks of DMControl benchmark and Mujoco environment, OPARL performed better than state-of-the-art methods. Our code has released on https://github.com/yydsok/OPARL

arxiv情報

著者 Jingpu Yang,Helin Wang,Qirui Zhao,Zhecheng Shi,Zirui Song,Miao Fang
発行日 2024-05-10 13:44:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク