OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments

要約

強化学習では、不確実性に対する楽観主義 (OFU) が、より高い不確実性を特徴とする、あまり調査されていない領域に調査を向けるための主流の原則です。
ただし、環境の確率論 (ノイズ) が存在する場合、純粋に楽観的な探査は高ノイズ領域の過剰な探査につながり、その結果、探査効率が妨げられる可能性があります。
したがって、騒がしい環境を探索する場合は、楽観主義に基づいた探索が基礎として機能しますが、高騒音エリアでの不必要な過剰探索を軽減するための慎重な注意が有益になります。
この研究では、継続的な制御のためのノイズを意識した楽観的探索を実現するために、Optimistic Value Distribution Explorer (OVD-Explorer) を提案します。
OVD-Explorer は、楽観的な観点からノイズを考慮したポリシーの探索能力の新しい測定を提案し、探索を推進するために勾配上昇を活用します。
実際には、OVD-Explorer は連続制御 RL アルゴリズムと簡単に統合できます。
MuJoCo タスクと GridChaos タスクの広範な評価により、ノイズを意識した楽観的な探索を実現する際の OVD-Explorer の優位性が実証されました。

要約(オリジナル)

In reinforcement learning, the optimism in the face of uncertainty (OFU) is a mainstream principle for directing exploration towards less explored areas, characterized by higher uncertainty. However, in the presence of environmental stochasticity (noise), purely optimistic exploration may lead to excessive probing of high-noise areas, consequently impeding exploration efficiency. Hence, in exploring noisy environments, while optimism-driven exploration serves as a foundation, prudent attention to alleviating unnecessary over-exploration in high-noise areas becomes beneficial. In this work, we propose Optimistic Value Distribution Explorer (OVD-Explorer) to achieve a noise-aware optimistic exploration for continuous control. OVD-Explorer proposes a new measurement of the policy’s exploration ability considering noise in optimistic perspectives, and leverages gradient ascent to drive exploration. Practically, OVD-Explorer can be easily integrated with continuous control RL algorithms. Extensive evaluations on the MuJoCo and GridChaos tasks demonstrate the superiority of OVD-Explorer in achieving noise-aware optimistic exploration.

arxiv情報

著者 Jinyi Liu,Zhi Wang,Yan Zheng,Jianye Hao,Chenjia Bai,Junjie Ye,Zhen Wang,Haiyin Piao,Yang Sun
発行日 2023-12-20 15:16:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク