Some Supervision Required: Incorporating Oracle Policies in Reinforcement Learning via Epistemic Uncertainty Metrics

要約

強化学習に固有の問題は、ランダムなアクションを通じて環境の探索を実行することであり、その大部分は非生産的な可能性があります。
代わりに、既存の(以前に学習またはハードコーディングされた)Oracle ポリシー、オフライン データ、またはデモンストレーションを使用して学習ポリシーを初期化することで、探索を改善できます。
Oracle ポリシーを使用する場合、学習サンプルの効率を最大化する方法で、Oracle ポリシーの経験を学習ポリシーに組み込む最適な方法が不明な場合があります。
この論文では、そのようなオラクルポリシーを標準のアクター批判的強化学習アルゴリズムに組み込むための批判的信頼度誘導探索(CCGE)と呼ばれる方法を提案します。
具体的には、CCGE はオラクル ポリシーのアクションを提案として受け取り、不確実性が高い場合にはこの情報を学習スキームに組み込みますが、不確実性が低い場合は無視します。
CCGE は不確実性を推定する方法に依存せず、2 つの異なる手法でも同様に効果的であることを示します。
私たちは、さまざまなベンチマーク強化学習タスクに対する CCGE の効果を経験的に評価し、このアイデアがサンプル効率と最終パフォーマンスの向上につながる可能性があることを示しています。
さらに、報酬がまばらな環境で評価すると、CCGE は、同じくオラクル ポリシーを利用する隣接するアルゴリズムと競合してパフォーマンスを発揮できます。
私たちの実験は、強化学習でオラクルを使用して探索をガイドするためのヒューリスティックとして不確実性を利用できることを示しています。
これにより、学習に提供される指導の方向性を決定するためにさまざまなヒューリスティックが使用されるこの方向での研究がさらに活発になることが期待されます。

要約(オリジナル)

An inherent problem of reinforcement learning is performing exploration of an environment through random actions, of which a large portion can be unproductive. Instead, exploration can be improved by initializing the learning policy with an existing (previously learned or hard-coded) oracle policy, offline data, or demonstrations. In the case of using an oracle policy, it can be unclear how best to incorporate the oracle policy’s experience into the learning policy in a way that maximizes learning sample efficiency. In this paper, we propose a method termed Critic Confidence Guided Exploration (CCGE) for incorporating such an oracle policy into standard actor-critic reinforcement learning algorithms. More specifically, CCGE takes in the oracle policy’s actions as suggestions and incorporates this information into the learning scheme when uncertainty is high, while ignoring it when the uncertainty is low. CCGE is agnostic to methods of estimating uncertainty, and we show that it is equally effective with two different techniques. Empirically, we evaluate the effect of CCGE on various benchmark reinforcement learning tasks, and show that this idea can lead to improved sample efficiency and final performance. Furthermore, when evaluated on sparse reward environments, CCGE is able to perform competitively against adjacent algorithms that also leverage an oracle policy. Our experiments show that it is possible to utilize uncertainty as a heuristic to guide exploration using an oracle in reinforcement learning. We expect that this will inspire more research in this direction, where various heuristics are used to determine the direction of guidance provided to learning.

arxiv情報

著者 Jun Jet Tai,Jordan K. Terry,Mauro S. Innocente,James Brusey,Nadjim Horri
発行日 2023-06-01 14:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク