On the Sample Efficiency of Abstractions and Potential-Based Reward Shaping in Reinforcement Learning

要約

Potential Based Reward Shaping (PBRS) の使用は、強化学習 (RL) におけるサンプルの非効率性に取り組むための進行中の研究活動において、大きな期待を示しています。
ただし、この手法が効果的であるためには、ポテンシャル関数の選択が重要です。
さらに、RL 手法は通常、計算上の制限のため、有限の範囲を使用するように制約されます。
これにより、PBRS を使用するときにバイアスが生じ、さらに複雑さが加わります。
この論文では、抽象化を利用して「適切な」ポテンシャル関数を自動的に生成します。
私たちは、新しい洞察を生み出す PBRS のコンテキストで、有限の地平線によって引き起こされるバイアスを分析します。
最後に、サンプルの効率とパフォーマンスへの影響を評価するために、目標指向のナビゲーション タスクと 3 つのアーケード学習環境 (ALE) ゲームを含む 4 つの環境でアプローチを評価し、CNN ベースのソリューションと同じレベルのパフォーマンスに到達できることを実証しました。
シンプルな完全接続ネットワーク。

要約(オリジナル)

The use of Potential Based Reward Shaping (PBRS) has shown great promise in the ongoing research effort to tackle sample inefficiency in Reinforcement Learning (RL). However, the choice of the potential function is critical for this technique to be effective. Additionally, RL techniques are usually constrained to use a finite horizon for computational limitations. This introduces a bias when using PBRS, thus adding an additional layer of complexity. In this paper, we leverage abstractions to automatically produce a ‘good’ potential function. We analyse the bias induced by finite horizons in the context of PBRS producing novel insights. Finally, to asses sample efficiency and performance impact, we evaluate our approach on four environments including a goal-oriented navigation task and three Arcade Learning Environments (ALE) games demonstrating that we can reach the same level of performance as CNN-based solutions with a simple fully-connected network.

arxiv情報

著者 Giuseppe Canonaco,Leo Ardon,Alberto Pozanco,Daniel Borrajo
発行日 2024-04-11 15:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク